创造您客户梦寐以求的解决方案
分开来看,每个模块都是一个处理语言、文档和名字的有效率的工具。将他们结合起来,你会从这个强大的能够语义搜索,或者解决方案的数据挖掘多语言能力得到很多益处。
无论您的终端客户需求什么(eDiscovery 和数字取证,OSINT 或者 COMINT分析,竞争和营销智能,电子信誉监控,为获得更多客户关注的情绪分析),SYSTRAN的LDK可以让你应用并分析结构化的和非结构化的多语言内容,比如社交媒体、网络内容、客户创造的内容以及其他。
现在你已经充分具备了能够创造强大挖掘数据,或者只能解决方案的软件。快去告知您亲爱的客户吧!
图片翻译:
文件过滤
导入各种文档格式以供其他模块处理,并且修改或注释内容和保留的布局以供原始格式从简文档。
语言识别
通过特定的单词或句子样本来自动识别文档的语言。
分割和标记化
把文档分割成句子并标记(最小处理单位)
语言正常化
正常化来自博客、邮件、论坛和用户创建的内容的文本,同时修正一些常见的错误和语言偏差。
文件分类
基于预定义模型识别文件的“领域”,并现实关键的“热门”词汇
命名实体识别
基于对文档内容的分析,自动识别和演示人的姓名、地址、号码、日期和组织名称。
词典
提供单语言和双语言的词典查询,并且伴有上下文信息,比如常见的释义、域名和上下文、表达和示例。
形态分析
提供针对单独词汇的形态分析,并回馈有可能的词组和词性变形形式的列表。
语法分析
在以句子为单位的基础上提供语法分析,伴有语言分析层次:单词识别、词性标记以及组份和依赖性分析。
音译
在具有不同脚本语言和分识别适当的名词起源之间进行词或者实体的转录以及音译。
WSD(单词场景非模糊化)
依据上下文选择最合适的词义。