语言是由语音形式、语义内容、结构关系三个方面构成的统一体,三个方面缺一不可,互相作用,构成了语言。语音是语言的形式部分,词汇是语言的意义部分,语法是语言单位的关系部分,说的是符号与符号怎样组合的问题。三个部分在语言中的作用,我们可以这样简单来表述:没有语音形式,语言就无法存在,没有词汇的内容意义,语言就是一个 毫无作用的空壳,没有语法,语言就是一盘杂乱而毫无章法的散沙。
中文信息处理分为汉字信息处理与汉语信息处理两部分,具体内容包括对字、词、句、篇章的输入、存储、传输、输出、识别、转换、压缩、检索、分析、理解和生成等方面的处理技术。用计算机来处理汉语信息,就是汉语信息处理,又称中文信息处理。
中文信息处理的特点是与西文信息处理相比较而言的,特点和任务是相互联系的。下面从文字、词汇、语音、语法以及软硬件系统等方面介绍一下中文信息处理的特点:
(一)大字符集
英文等西方语言的书写符号使用的是字母表式文字符号系统,字母数量较少。一种文字,包括大小写、数字及各种标点符号等,总共不过几十个,属于“小字符集”。例如:拉丁字母符号有26个;斯拉夫字母有33个等等;汉字属于“大字符集”:常用汉字3500个,通用汉字7000个,历史累积汉字多达6万。
(二)编码方案众多
使用字母数字键盘输入汉字信息,必须通过汉字编码。 因为汉字是形音义的统一体,编码时所采用的信息类型不同,会有不同的编码规则和方案。因此,无论从编码的角度,还是从使用者的角度,都面临多样化的选择。
(三)形体多样,结构复杂 :一个汉字就是一个独立的二维的拓扑图形。五种基本笔画“横”、“竖”、“撇”、“点”、“折”、,存在多种笔形变体。汉字结构层叠错落,笔画、字根、偏旁、部首、部件、字元,见仁见智,难以统一,这些汉字字库的研制以及字形的标准化都带来了相当打的困难。
(四)汉字方言分歧严重:现代汉语有七大方言区,每个方言区内又有次方言区,次方言区下还有不同的方言点。普通话普及应用水平远未达到语音识别、人机对话所要求的规范化和标准化的程度。因此,方言语音分歧成为语音信息处理的瓶颈。
(五)同音现象突出 :现代汉语共有4125个不标调音节,按《基本字符集》6763个汉字计算,每个音节约有16.4个同音字;如按《汉语大字典》54678字计算,每个音节的同音字平均达到132.7个。
(六)书面含有没有分词标志:西方采用拼音文字,书面上词与词之间用空格加以分隔,因此很容易进行词汇的统计分析和认知处理。
(七)汉语没有形态:汉语的词无论冲当什么成分,构成什么关系,词形本身没有任何变化,只有依靠虚词、语序进行语法分析,不利于计算机的处理。
(八)词的兼类与活用复杂:词类划分不一,存在大量“兼类”。
(九)语法规则多有例外:词语搭配缺乏规范化的约束,人们习惯于意会而不注重形式标志的规则。
(十)歧义现象突出:词汇歧义本来是语言中的一个比较普遍的现象。
北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。
随着信息技术在我国社会生活各个领域应用的深入,中文信息处理正在成为人们工作和生活中不可或缺的手段,中文信息处理将具有更加广阔的市场。这将促使中文信息处理方面的高效中文搜索引擎、实时机器翻译、大规模中文文本处理、跨平台中西文自动识别转换、泛中文语义理解、中文电子商务等技术实现重大突破。中文信息处理已成为我国信息技术研究、发展、应用和产业的基础,在互联网日益成长的今天,中文信息处理技术将会更加成熟并创新。