随着信息技术的不断发展,互联网上的信息也在急剧膨胀,在这海量的信息中,各类信息混杂在一起,要想充分利用这些信息资源就要对它们进行整理,如果由人来做这项工作,已经是不可能的,而如果面对中文信息不采用分词技术,那么整理的结果就过于粗糙,而导致资源的不能充分利用。通过引入分词技术,就可以使机器对海量信息的整理更准确更合理,使得检索结果更准确,效率也会大幅度的提高。
汉语的中文信息处理就是要“用计算机对汉语的音、形、义进行处理。”我们还知道,“词是最小的能够独立活动的有意义的语言成分。”计算机的所有语言知识都来自机器词典(给出词的各项信息)、句法规则(以词类的各种组合方式来描述词的聚合现象)以及有关词和句子的语义、语境、语用知识库。然而,汉语文本中词与词之间却没有明确的分隔标记,而是连续的汉字串。切词体现了汉语与英语的显著的不同。英语文本是小字符集上的已充分分隔开的词串,而汉语文本是大字符集上的连续字串。可以这样设想汉语自动分词过程的困难:如果把某个英语文本中的所有空格符都去掉,然后让计算机自动恢复文本中原有的空格符。实际上,这就是汉语词语的识别过程。分词是汉语自然语言处理的第一步。目前,汉语自然语言处理的应用系统处理对象越来越多的是大规模语料,因此分词的速度和分词算法的易实现性变得相当关键。
北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
NLPIR大数据语义智能分析平台十三大功能:
1. 精准采集:对境内外互联网海量信息实时精准采集,有主题采集(按照信息需求的主题采集)与站点采集两种模式(给定网址列表的站内定 点采集功能)。可帮助用户快速获取海量信息。
2. 文档抽取:对 doc、excel、pdf 与 ppt 等多种主流文档格式,进行文本信息 抽取,信息抽取准确,效率达到大数据处理的要求。
3、新词发现:新词发现能从文本中挖掘出具有内涵新词、新概念,用户可以用于专业词典的编撰,还可以进一步编辑标注,导入分词词典中, 提高分词系统的准确度,并适应新的语言变化。关键词提取能够对单篇文章或文章集合,提取出若干个代表文章中心思想的词汇或短语,可用于精化阅读、语义查询和快速匹配 等。
4. 批量分词:对原始语料进行分词、自动识别人名地名机构名等未登录词、新词标注以及词性标注。可在分析过程中,导入用户定义的词典。
5. 语言统计:针对切分标注结果,系统可以自动地进行一元词频统计、二元词语转移概率统计(统计两个词左右连接的频次即概率)。针对常 用的术语,会自动给出相应的英文解释。
6. 文本聚类:能够从大规模数据中自动分析出热点事件,并提供事件话题的关键特征描述。同时适用于长文本和短信、微博等短文本的热点分析。
7. 文本分类:针对事先指定的规则和示例样本,系统自动从海量文档中识别并训练分类。NLPIR 深度文本分类,可以用于新闻分类、简历分 类、邮件分类、办公文档分类、区域分类等诸多方面。
8. 摘要实体 自动摘要能够对单篇或多篇文章,自动提炼出内容的精华,方便用户快速浏览文本内容。实体提取能够对单篇或多篇文章,自动 提炼出内容摘要,抽取人名、地名、机构名、时间及主题关键词; 方便用户快速浏览文本内容
9. 智能过滤:对文本内容的语义智能过滤审查,内置国内最全词库,智能识 别多种变种:形变、音变、繁简等多种变形,语义精准排歧。
10. 情感分析:情感分析,针对事先指定的分析对象,系统自动分析海量文档的情感倾向:情感极性及情感值测量,并在原文中给出正负面的得 分和句子样例。
11. 文档去重:能够快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录,同时找出所有的重复记录。
12. 全文检索:JZSearch 全文精准检索支持文本、数字、日期、字符串等各种 数据类型,多字段的高效搜索,支持 AND/OR/NOT 以及 NEAR 邻 近等查询语法,支持维语、藏语、蒙语、阿拉伯、韩语等多种少数 民族语言的检索。可以无缝地与现有文本处理系统与数据库系统融 合。
13. 编码转换:自动识别文档内容的编码,并进行自动转换,目前支持Unicode/BIG5/UTF-8 等编码自动转换为简体的 GBK,同时将繁体 BIG5 和繁体 GBK 进行繁简转化。
中文分词技术应时代的要求应运而生,在很大程度上满足了人们对自然语言处理的需要,解决了人和计算机交流中的一些障碍;但中文分词技术也存在很多困难,我们相信在未来的几年里,通过对中文分词技术的深入研究,必将开发出高质量、多功能的中文分词算法并促进自然语言理解系统的广泛应用。