GroupDocs.Parser for .NET
GroupDocs.Parser for .NET是一种非常好用的文档文本提取API。它从Microsoft Word、Excel、PowerPoint、电子邮件消息、包含ZIP归档文件、纯文本文件和HTML等文件的集装箱文件中提取文本和元数据,而无需安装任何这些文档阅读器。文本提取器API以前所未有的精度和速度执行操作。API还提供了方便的工具来检测编码,如UTF32 LE、UTF32 BE、UTF16 LE、UTF16 BE等
用于文档的原始和格式化文本检索.NET Text extraction API概述
功能
提取原始文本
提取格式化文本
提取元数据
编码检测
媒体类型检测
可扩展和灵活的
API
得到输入文件
获取原始或格式化的文本
获取元数据
高级文档文本提取API功能
提取原始文本和格式化文本
提取元数据
提取结构化文本
提取突出显示的文本
在文档中搜索文本
从包含其他文件(如zip存档)的集装箱文件中获取文本
获取来自TXT、Markdown和HTML文件的格式化文本
支持编码检测
支持媒体类型探测器