随着信息化和网络化的快速发展,计算机科学研究也在逐步成 熟,而伴随信息爆炸时代而来的是更为广阔的数据处理和分析需求以及日益严峻的数据安全隐私问题。如何深入挖掘海量数据中潜在的信息价值、如何更快速高效地分析和处理海量数据,成为了大数据研究的重中之重,也对于数据挖掘和人工智能领域提出了更高更新的要求。
大数据技术描述了新一代的技术和架构体系,通过高速采集、发现或分析,提取各种各样的大量数据的经济价值。根据数据的生成方式和结构特点不同,本文将数据分析划分为6个关键技术领域:
1、结构化数据
一直是传统数据分析的重要研究对象,目前主流的结构化数据管理工具,如关系型数据库等,都提供了数据分析功能。分析商业和科研领域会产生大量的结构化数据,而这些结构化数据的管理和分析依赖于数据库、数据仓 库、OLAP和业务流程管理成熟商业化技术。得益于关系型数据库技术的发展,结构化数据的分析方法较为成熟,大部分都以数据挖掘和统计分析为基础。
2、文本
是常用的存储文字、传递信息的方式,也是最常见的非结构化数据。存储信息最常见的形式就是文本,例如电子邮件通信、公司文件到网站页面、社交媒体内容等。因此,文本分析被认为比结构化数据挖掘更具有商业化潜力。通常情况下,文本分析,也称为文本挖掘,指的是从非结构化文本中提取有用信息 和知识的过程。文本挖掘是一个跨学科领域,涉及到信息检索、机器学习、统计、计算语言学尤其是数据挖掘。
3、 Web数据
Web技术的发展,极大地丰富了获取和交换数据的方式,Web数据高速的增长,使其成为大数据的主要来源。在过去的10年中,我们见证互联网信息的爆炸式增长,同时 Web分析作为一个活跃的研究领域也已经出现。Web分析旨在从 Web 文档和 服务中 自动检索、提取和评估信息用以发现知识。Web分析建立在几个研究领域之上,包括数据库、信息检索、自然语言处理和文本挖掘等。Web内容涉及多种类型的数据,例如文本、图像、音频、视频、代号、元数据以及超链接等。
4、多媒体数据
随着通讯技术的发展,图片、音频、视频等体积较大的数据,也可以被快速地传播,由于缺少文字信息,其分析方法与其他数据相比,具有显著的特点。近来,多媒体数据(主要包括图像、音频和视频)正以惊人的速度增长,几乎无处 不在。由于多媒体数据多种多样而且大多数都比单一的简单结构化数据和文本数据包含更丰富的信息,提取信息这一任务正面临多媒体数据语义差距的巨大挑战。多媒体分析的研究涵盖的学科种类非常多,从多媒体摘要、多媒体注解、多媒体索引和检索、多媒体的建议和多媒体事件检测等。
5、社交网络数据
从一定程度上反映了人类社会活动的特征,具有重要的价值。网络分析从最初的计量分析和社会学网络分析一直演化到21世纪初新兴的在线社交网络分析。许多流行的在线社交网络,例如 Twitter,Facebook和 LinkedIn 等近年来都日益普及。这些在线社交网络通常都含有大量的链接和内容数据,其中链接数据主要为图形结构,表示两个实体之间的通信,而内容数据则包含有文本、图像以及其他网络多媒体数据。这些网络的丰富内容给数据分析带来了前所未有的挑战,同时也带来了机遇。
北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。
大数据挖掘已成为大数据技术最重要的应用,它从大数据中提取、挖掘对业务发展有价值的、潜在的知识,找出趋势,为决策层提供有力依据,对产品或服务发展方向起到积极作用,将有力推动企业内部的科学化、信息化管理。在信息管理领域,综合应用数据分析技术和人工智能技术,获取用户知识、文献知识等各类知识,将是实现知识检索和知识管理发展的必经之路。