010-68421378
sales@cogitosoft.com
产品分类

PDFlib TET

TET 5 

PDFlib GmbH发布了新版本的PDFlib TET 5。TET的前身是»文本提取工具包«,之后逐渐改名为»文本和图像提取工具包«,在图像提取方面得到明显提升。

TET检索文本、图像、PDF文档中的元数据和其他信息。以下是全新或显著改善的五大特性:

· 文本检索:

检索文本的填充色和描边色

改善布局检测

 

· 图像检索

显著增强分散图像的合并

提取图像蒙版和软蒙版

 

· 页面处理:

荣誉图层和剪辑路径

 

· TETML 内容:

包括符号的填充色和描边色、颜色空间和ICC文件配置细节

 

一些新的pCOS 伪对象

全新的PDFlib TETPDF IFilter 5 (企业版PDF搜索应用于窗口)版本现已可用。

 

 

PDFlib TET 5 - 特性
PDFlib文本和图像提取工具包(TET)旨在从PDF文档中提取文本和图像,但也可用于从PDF检索其他信息。
接受PDF输入
TET支持所有相关的PDF输入:
所有PDF版本到Acrobat DC,包括ISO 32000-1和-2
保护那些打开不需要密码的PDF文档

损坏的PDF文档将被修复

世界的所有写作系统

TET在世界上所有书写系统中处理PDF文档,并实现某些脚本所需的特殊处理:

拉丁语,希腊语和西里尔字母,包括脱音

阿拉伯语和希伯来语,包括从右到左和双向文本的逻辑重新排序;阿拉伯语呈现形式的规范化

简体和繁体中文,日语和韩语,无论编码;水平和垂直文本

印度文字(无字形重排)

Unicode支持的所有其他语言和脚本

Unicode

由于PDF中的文本通常不以Unicode编码,因此PDFlib TET将PDF文档中的文本标准化为Unicode:

TET将所有文本内容转换为Unicode。在C和其他非Unicode感知语言中,文本以UTF-8或UTF-16格式返回,并作为具有Unicode功能的编程语言的本地字符串返回。

字符和其他多字符字形被分解为相应的Unicode字符序列。

没有适当的Unicode映射的字形被识别,并被映射到可配置的替换字符,以避免误解。

TET针对特定文档创建包(例如InDesign和TeX文档或在大型机系统上生成的PDF)的问题实施各种解决方法。

内容分析和字检测

TET包括专利内容分析算法:

确定检索正确单词所需的单词边界

重组连字字的部分(去连字)

删除重复的文字实例,例如阴影和人为粗体文本

按阅读顺序重新组合段落

正确排序散布在页面上的文本

页面布局和表检测

分析页面内容以确定文本列。检测表,包括跨越多个列的单元格。这改进了提取的文本的排序。可以标识表行和每个表单元格的内容。

几何

TET提供了文本的精确度量,例如页面上的位置,字形宽度和文本方向。页面上的特定区域可以被排除或包括在文本提取中,例如。以忽略页眉和页脚或边距。

文本颜色

TET分析PDF页面描述中的颜色信息,并返回每个字形的精确颜色信息。这可以用于例如识别标题或其他突出显示的文本。

图像提取

PDF页面上的图像可以提取为TIFF,JPEG,JPEG 2000或JBIG2文件。针对每个图像报告精确的几何信息(位置,大小和角度)。分割的图像被组合到较大的图像以方便重新使用。由于不进行下采样或颜色转换,保证了图像保真度。这确保了最高的图像质量。

PDF分析

TET库包括用于查询PDF文档的详细信息的pCOS接口,例如文档信息和XMP元数据,字体列表,页面大小等等。

有问题的PDF的配置选项

TET包含各种PDF的特殊处理和解决方法,其中文本无法与其他产品正确提取。此外,它包括各种配置功能,以改善问题文档的处理:

Unicode映射可以通过用户提供的表来定制,用于将字符代码或字形名称映射到Unicode。

PDFlib FontReporter是一个用于分析PDF中的字体,编码和字形的辅助工具。它作为Adobe Acrobat的插件。此插件可免费用于OS X / macOS和Windows。

分析嵌入字体以查找Unicode映射的其他提示。如果未嵌入字体,则使用外部字体文件或系统字体来提高文本提取结果。

Unicode后处理

TET支持各种Unicode后处理步骤,可用于改进提取的文本:

折叠保留,删除或替换字符,例如。从不相关的脚本中删除标点符号或字符。

分解用一个或多个其他字符的等效序列替换字符,例如。用其各自的标准对应物替换窄的,宽的或垂直的日语字符或拉丁上标变体。

文本可以转换为所有四种Unicode标准化形式,例如。发射NFC表单以满足Web文本或数据库的要求。

文档域

PDF文档可能包含除页面内容之外的其他位置的文本。虽然大多数应用程序将仅处理页面内容,但在许多情况下,其他文档域也可能是相关的。 TET从以下所有文档域中提取文本:

页面内容

预定义和自定义文档信息条目

文档和图像级别的XMP元数据

书签

文件附件和PDF文件包可以递归处理

表单域

评论(注释)

可查询一般PDF属性,如页数,符合PDF / A或PDF / X等标准。

XMP元数据

TET以多种方式支持XMP元数据:

使用集成的pCOS接口,可以以编程方式提取文档,单个页面,图像或文档的其他部分的XMP元数据。

TETML输出包含XMP文档和图像元数据(如果存在于PDF中)。

以TIFF或JPEG格式提取的图像包含图像元数据(如果存在于PDF中)。

TETML表示作为XML的PDF内容

TET可选地表示称为TETML的XML风格中的PDF内容。它包含各种各样的PDF信息,可以很容易地使用常用的XML工具进行处理。 TETML包含实际文本以及可选的字体和位置信息,资源详细信息(字体,图像,颜色空间)和元数据。

TETML还包括交互式元素,例如表单字段,注释,书签等。它甚至可以用于分析JavaScript或颜色空间细节,ICC配置文件或输出意图。

TETML由相应的XML模式管理,以确保TET始终创建一致和可靠的XML输出。 TETML可以用XSLT样式表处理,例如。应用某些过滤器或将TETML转换为其他格式。用于处理TETML的样本XSLT样式表包括在TET分布中。

以下片段显示具有字形详细信息的TETML输出:

 

PDFlib

TET连接器

TET连接器提供必要的粘合代码来与其他软件进行TET接口。以下TET连接器使PDF文本提取功能可用于各种软件环境:

Lucene搜索引擎的TET连接器

Solr搜索服务器的TET连接器

TIKA工具包的TET连接器

Oracle Text的TET连接器

MediaWiki的TET连接器

TET PDF用于Microsoft产品的IFilter可作为单独的产品提供。它从PDF文档中提取文本和元数据,并使其可用于在Windows上搜索和检索软件。

TET食谱

TET Cookbook是一个编程示例的集合,演示了TET对各种文本和图像提取任务的使用。几个Cookbook示例展示了如何结合TET和PDFlib + PDI产品,以增强PDF文档,例如。基于页面上的文本添加书签或链接。

 

快速导航

© Copyright 2000-2017  哲想方案(北京)科技有限公司版权所有  京ICP备09015132号  京公安网备11010802016897     地址:北京市海淀区西三环北路50号豪柏大厦C2座11层1105室