作为一门交叉学科,数据挖掘融合了包括数据库、人工智能、统计学等在内的多个领域的理论和技术。 而数据库、人工智能和数理统计是数据挖掘技术的三根强大的技术支柱。数据挖掘的主要任务是借助关联规则,决策树、聚类和基于样例的学习。贝叶斯学习、粗糙集、神经网络、遗传算法、统计分析等技术.采用数据取样(选取数据样本)、 数据探索(可视化数据探索与聚类分析和因子分选、数据调整(数据重组细分与添加 和拆分记录)、模式化(人工神经网络。决策树模型,数理统计分析和时问序列分析)和评价(结论综合和评价、是否修改数据、有新问题产生)等五个基本流程。这一过程可能要反复进行,不断地得到趋近事物的本质,不断地优化问题的解决方案,通过关联分析、分类、聚类、预测和偏差检测等发现数据间的关系以及数据间的模式 。
随着数据库技术的向前发展,数据库系统中不断引入新的数据模型,如扩充关系模型、面向对象模型、对象关系模型和演绎模型;根据数据的特性又分为空间的、时间的、多媒体的、主动的和科学的数据库。相应的,这些对数据挖掘技术也提出了新的要求,给出了新的发展方向。
数据挖掘技术未来的发展方向和研究焦点是对各种非结构化数据的挖掘,如对文本数据、空间数据、图形数据、视频图像数据进行挖掘,处理的数据 会涉及到更多的数据类型,它们更复杂,结构更独特。
北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。
数据挖掘技术及其应用是目前国际上的一个研究热点,并在许多行业中得到了很好的应用,尤其是在市场营销中获得了成功,初步体现了其优越性和发展潜力。在信息管理领域,综合应用数据挖掘技术和人工智能技术,获取用户知识、文献知识等各类知识,将是实现知识检索和知识管理发展的必经之路。