进入21世纪,面对网络时代信息的爆炸式增长,中文信息处理作为一项基础性、普适特性的信息技术,面临着挑战和再次发展的机遇,在互联网时代则显示出其优势。它的开发利用关系到我国今后信息产业乃至社会经济的发展和国家安全,具有巨大的经济价值和社会价值。
中文信息处理是中文(包括汉语和少数民族语言)语言学和信息技术的融合,它是一门用计算机对汉语(包括口语和书面语)进行转换、传输、存贮、分析等加工的科学。中文信息处理与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相联系,是自然语言信息处理的一个分支,需要以大量的语言知识、背景知识为依据,对中文信息的人脑处理过程进行模拟。其中,“中文”是指中国通用的所有语言种类,包括汉语及其他少数民族的语言:但一般都是指汉语。“信息”是指能通过视觉、听觉、嗅觉、味觉、触觉等器官或仪器获取,并有一定交际功能的东西,“信息”是不确定性的减少,是负熵。所谓“处理”,是指用计算机对信息进行各种加工,主要的是图像信息和语言信息的识别、模拟、分析、转换和传输。
经过二十余年来中国语言学家和计算机专家的艰辛努力,中文信息处理技术取得了非常惊人的成绩。但是,相对于日益发展的Internet,相对于快速膨胀的中文信息、相对于十几亿中文语种用户来说,现代中文信息处理技术依然滞后,很多技术和系统依然是实验室的原型,离实际的应用还有较大差距。主要问题体现在:
1、 汉语言学家没有为中文信息处理作好语言分析的准备,长期以来,对汉语的研究方法基 本上是例举性的,而非穷尽的;材料和对象基本上是书面的,而非口语的。
2、 中文信息处理研究力量分散而且存在着低层次重复、缺乏统一规范和标准的问题。
3、 现代汉语研究领域和计算机领域的隔绝状态没有出现根本性的改变。
NLPIR大数据语义智能分析平台平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。15年专业研究与工程积累,提供应用软件及各平台下的二次开发包。提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中。
NLPIR能够全方位多角度满足应用者对大数据文本的处理需求,包括大数据完整的技术链条:网络采集、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。
中文数据挖掘技术应时代的要求应运而生,在很大程度上满足了人们对自然语言处理的需要,解决了人和计算机交流中的一些障碍;但中文数据挖掘技术也存在很多困难,NLPIR大数据语义智能技术将对中文数据挖掘技术进行深入研究,必将提供出高质量、多功能的中文数据挖掘算法并促进自然语言理解系统的广泛应用。