数据挖掘
数据挖掘(英文:Data mining)又称数据勘测、数据采矿,是指从大量的、不完全的、有噪声的、模糊的、随机的原始数据中,提取隐含的、事先未知的、但又潜在有用的信息和知识的过程。它利用一种或多种计算机学习技术,能够自动分析数据库中的数据并提取知识。
数据挖掘一词起源于数据库中的知识发现。1989年8月,在美国底特律召开的第11届国际人工智能联合会议上首次提出了知识发现KDD(Knowledge Discovery in Database)的概念。1995年,在加拿大召开的第一届知识发现和数据挖掘国际学术会议上,数据挖掘一词开始流传开来。1997年,亚太地区召开一年一度的数据挖掘会议,标志着数据挖掘进入了发展阶段。1998年成立数据库中的知识发现专业组。
数据挖掘可以针对任何类型的数据库进行,包括传统的关系数据库、文本数据库、Web数据库等,发现的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。基于以上特点,数据挖掘在商业领域、科学研究以及教育领域等都被广泛应用。
产生背景
全球信息技术的迅速发展和互联网的快速普及造成了数据过量和信息爆炸,仅以数据库系统的录入、查询、统计等功能,无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,更缺乏挖掘数据背后隐藏知识的手段。要从海量数据中发现有价值的信息,需要功能强大和通用的工具,把这些数据转换成有组织的知识,数据挖掘正是实现这一功能的有效手段。数据挖掘又译为资料勘测、数据采矿,是指从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、事先不知道的但又潜在有用的信息和知识的过程。
数据挖掘一词起源于数据库中的知识发现KDD(Knowledge Discovery in Database)。1989年8月,在美国底特律召开的第11届国际人工智能联合会议上首次提出了KDD的概念,指的是从数据库中挖掘有效的、新颖的、潜在有用的并最终能被人们所理解的信息和知识的复杂过程。1995年,在加拿大召开的第一届知识发现和数据挖掘国际学术会议上,数据挖掘一词开始流传开来。1997年,亚太地区数据挖掘会议(PAKDD)顺利召开,标志着亚太地区数据挖掘研究进入了发展时期,此后PAKDD每年召开一次。1998年,数据挖掘界成立了知识发现与数据挖掘国际学术会议组织,即美国计算机学会下的数据库中的知识发现专业组。同年,有三十多家软件公司展示了他们的数据挖掘软件产品。
数据挖掘就是利用一种或多种计算机学习技术,自动分析数据库中的数据并提取知识的处理过程,或它是一个利用各种分析方法和工具在海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策或预测。
过程
数据挖掘有问题定义、数据提取、数据预处理、知识提取和评估五个处理过程。可以总结为三个阶段:数据预处理阶段、数据挖掘阶段、结果的评估与表示阶段。
数据预处理阶段
数据预处理阶段主要包括数据清理、数据集成、数据选择和数据变换等步骤。数据处理就是对不完整、不明确、大量的并且具有很大随机性的实际应用数据进行清洗,包括清除噪声、推导计算填补缺省和不完整数据、修正异常数据和清除重复数据。数据集成就是把来源不同、格式不同、特点和性质也不相同的数据进行物理上或逻辑上的有机集中。数据选择是根据任务目标,从集成好的、包含大量数据的数据集合中确定关注的目标数据,将其抽取出来,得到具体挖掘任务的相应操作对象。数据变换就是根据知识发现的要求将数据进行再处理,将数据转换成合适被挖掘的数据形式,进行数据降维,找出真正有用的特征或变量表示数据。
数据挖掘阶段
数据挖掘阶段需要完成三项任务,分别是:确定数据挖掘的目标,根据用户需求发现的知识类型,为选择合适数据挖掘算法提供依据;选择算法,根据数据本身的特点和预期实现的功能,选择对应的算法和模型,从数据中提取隐含的模型,可选方法包括回归分析、分类、聚类、决策树、神经网络和Web挖掘等,它们各自侧重于以不同的角度对数进行分析和挖掘;数据挖掘,使用选择的算法,从数据中提取用户感兴趣的知识。
结果的评估与表示阶段
该阶段对数据挖掘的产生的知识进行评估,去除冗余的和无用的知识。对挖掘出的知识进行解释,将其转换成能够最终被用户理解的知识,发现的知识应当用高级语言、可视化表示形式或其他表示形式表示,使知识易于理解,能够直接被人使用,这要求系统采用有表达能力的知识表示技术,如树、图、图标、交叉表、矩阵或曲线。
方法和功能
挖掘方法
数据挖掘可以针对任何类型的数据库进行,既包括传统的关系数据库,也包括非数据库组织的文本数据库、Web数据库以及复杂的多媒体数据库等。根据关联规则,又能实现时序数据挖掘、空间序列数据挖掘和不确定数据挖掘等。
空间数据挖掘
空间数据是指从地理信息系统、遥感系统、多媒体系统、医学及卫星图像等各种应用系统中收集的、远超过人类大脑分析能力的数据。空间数据挖掘分为描述性、解释型和预测型,能够实现将空间现象分布特征化、处理空间关系、预测另外的属性等。
时序数据挖掘
时序数据是与时间有关的一系列数据,可以进一步分为时间相关数据和序列相关数据,时间相关数据与数据产生的绝对时间有关,如银行账务、股票价格、设备运行日志等。序列相关数据与数据产生的绝对时间相关不大,注重数据间的先后次序,典型的序列相关数据有生物信息中的蛋白质、传感器输出数据和DNA序列数据等。
不确定数据挖掘
实际应用领域中,由于测量仪器的局限性,测量数据不准确以及不确定是不可避免的,数据的不确定性包括存在的不确定性和值的不确定性两种情况。一些算法的扩展和技术方面的突破使得不确定数据挖掘得以应用。
数据挖掘所能发现的知识有:反映同类事物共同性质的广义型知识、反映事物各方面特征的特征型知识、反映不同事物之间属性差别的差异性知识、反映事物之间依赖或关联的关联性知识、根据历史和当前的数据推测未来数据的预测性知识、揭示事物偏离常规的异常现象的偏离型知识等。发现知识的方法可以是数字的、非数字的,也可以是归纳的。最终被发现的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。
分类技术
传统数据分类方法
基于关联规则
关联规则是在事务数据库中,挖掘出不同项集的关联关系。如在事务数据库D中寻找那些不同项集(如A和B两个商品)同时出现的概率(P(AUB))大于最小支持度,且在包含一个项集(如A)的所在事务中,同时也包含一个项集(如B)的条件概率(P(B|A))大于最小置信度时,则存在关联规则(即A大于等于B)。
K近邻(KNN)分类
KNN方法基于类比学习,是一种非参数的分类技术,它在基于统计的模式识别中非常有效,并对未知和非正态分布可取得较高的分类准确率,具有鲁棒性、概念清晰等优点。基本原理为:KNN分类算法搜索样本空间,计算未知类别向量与样本集中每个向量的相似度值,在样本集中找出K个最相似的文本向量,分类结果为相似样本中最多的一类。
决策树分类算法
决策树是由一系列判断(包括条件和结论)组成的一种树形结构,是实例属性值约束的合取式。在树形结构中,每个节点表示对一个属性值的测试,分支表示测试的结果,而树的叶节点表示类别,从决策树的根节点到叶节点的一条路径对应着一条合取规则,整个决策树的产生是一个自顶向下的方式。首先通过对一批训练实例集的训练生成决策树,然后利用决策树,根据属性的取值对一个未知实例集进行分类。
贝叶斯分类算法
贝叶斯分类算法是统计学分类方法,利用概率统计进行分类的算法,利用Bayes定理来预测一个未知类别的样本的可能属性,可选择其可能性最大的类别作为样本的类别。但贝叶斯定理假设一个属性对给定类的影响独立于其他属性,因此会影响其分类的准确性。其改进算法TAN算法通过发现属性对之间的依赖关系来降低贝叶斯算法中任意属性之间独立的假设,其方法是:用结点表示属性,用有向边表示属性之间的依赖关系,把类别属性作为根节点,其余所有属性都作为它的子节点。
基于软计算的分类
粗糙集
粗糙集理论是一种刻画不完整性和不确定性的数学工具,能有效分析和处理不精确、不一致和不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。它的基本思想是基于等价关系的粒化与近似的数据分析方法,将数据库这样的元祖数据根据属性不同的属性值分成相应的子集,然后进行集合的上、下近似运算,即上近似映射和下近似算子,以生成各子类的判定规则。
遗传算法在解决多峰值、非线性、全局优化等高复杂度问题时具备独特优势,它是以基于进化论原理发展起来的高效随机搜索与优化方式。它以适应值函数为依据,通过对群体、个体施加遗传操作来实现群体内个体结构的优化重组,在全局范围内逼近最优解。它的基本思想是把数据分类问题看成在搜索问题,数据库看做是搜索空间,分类算法看做是搜索策略,在数据库中进行搜索时,对随机产生的一组分类规则进行进化,知道数据库能被该组分类规则覆盖,从而挖掘出隐含在数据库中的分类规则。
神经网络
神经网络是通过对人脑的基本单元——神经元的建模和连接,探索模拟人脑神经系统功能的模型。在神经网络中,知识与信息的存储表现为神经元之间分布式的物理联系,它分散地表示和存储于整个网络内的各神经元及其连线上。每个神经元及其连线只表示一部分信息,而不是一个完整具体概念。神经网络具有很强的不确定性信息处理能力,即使输入的信息不完全、不准确或模糊不清,神经网络仍然能够通过联想思维,展示存在于记忆中数据的完整图像。
聚类技术
聚类技术就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内数据对象的相似性尽可能大,同时不在一个簇中的数据对象的差异性也尽可能大,即聚类后同一类的数据尽可能聚集到一起,不同类的数据尽量分离。
异常值检测
异常值检测的目的是发现与大部分对象不同的对象、通常将异常对象称作离群点,异常值检测称为偏差检测,异常对象的属性值往往模拟关系偏离期望或常见的属性值。异常值检测可以看作两个子问题:在给定的数据集合中定义什么样的数据可以被认为是不一致的;找到一个有效的方法来挖掘这样的异常点。
标准
标准分类
数据挖掘标准可分为四大类,分别是:过程标准,定义数据挖掘模型产生、使用和部署的过程标准;接口标准,为方便客户应用程序调用,针对具体编程语言和系统提供的数据挖掘API接口;语言标准,针对数据挖掘问题定义,用于问题描述、知识发现和表达的数据挖掘语言标准;网络标准,用于解决网络上分布式和远程数据挖掘问题的数据挖掘Web标准。
通用标准
跨行业数据挖掘
CRISP-DM(即跨行业数据挖掘标准流程)是一种业界认可的用于指导数据挖掘工作的方法,作为一种方法,它包含项目中各个典型阶段的说明、每个阶段所包含的任务以及这些任务之间的关系的说明;作为一种流程模型,它概述了数据挖掘的生命周期,生命周期模型由六个阶段组成,阶段之间并不一定要严格遵守顺序。
Java数据挖掘标准
Oracle、Hyperion、IBM和SUN Microsystems等组织联合提出Java数据库挖掘标准JSR-073(Java Specification Requests),又称JDM,主要概念领域是:设置、模型、转换和结果。JDM是为支持数据挖掘应用而开发的Java接口,支持数据和元数据的创建、存储、访问和维护以及数据挖掘模型的创建和使用。JDM主要有应用程序编程接口、数据挖掘引擎、元数据仓库三个结构组件,可以与ISO的SQL/MM,以及DMG的PML等标准配合使用。利用JDM,数据挖掘服务的实现者能够将单一、标准的AIP接口显露于前端的应用程序开发者或者是Java2平台组件的开发者。
JSR-247更新了JDM规范,即JDM 2.0。JDM 2.0 扩展了 JDM,为新的挖掘函数、挖掘算法和相应的Web服务规范提供了所需的功能。JDM 2.0的功能如下:
应用领域
数据挖掘技术能够实现数据信息收集、系统属性划分和层次管理分析等,在医学领域、商业领域、科学领域以及农业领域都被广泛应用。
在医学领域的应用
数据挖掘技术可以抽取大量临床数据中的趋势及规律性,辅助医务人员快速准确地诊断、确定最优的治疗方案。在生物医学中,它可以在脱氧核糖核酸序列间进行相似搜索和比较、关联分析识别同时出现的基因序列、陆行分析发现不同的治病基因。在一般医学中,数据挖掘技术大大提高了医务工作者的工作效率,主要应用于对疾病的辅助诊断、相关因素分析及预测等。它还能利用决策树和网络对医学图像进行特征分析,找到能够对图像分类的图像特征临界值。数据挖掘还可以用来开发药物,确定药效基因,缩短新药的研究开发周期,降低开发费用。
在商业领域的应用
商业应用数据挖掘最广阔的应用,具体应用在商品零售业、商业保险业、商业金融业以及通信业等等。通过分析聚类算法挖掘模型所发现的模式得出对顾客分类的结果,为零售业销售公司管理层的营销策略提供了依据。应用数据挖掘技术,基于用户行为分析的精准化营销在推销 通信增值业务的商业活动中可以帮助通信行业运营商把运营成本逐渐地降低、增强在通信市场上的竞争力。数据挖掘技术基于模型,能够有效分析金融市场波动的主要因素,据此建立相应的预测模型,避免市场波动带来的不利影响,为后续投资及相关决策提供合理科学的基础。
在科学领域的应用
科研机构进行科学研究时,需要分析大量复杂的实验调查数据,数据挖掘技术作为一种具有高层次的智能化的自动分析工具,与科学研究领域的数据分析工具需求相一致,促进了科学研究领域的应用和发展。
在农业领域的应用
数据挖掘通过各种参数数据进行处理监测参数值是否正确,为农业提供气象信息服务和可靠的科学依据。在农业市场信息中,数据挖掘技术以市场监控信息为数据库,以国际贸易仓库数据为数据源,从而提供可信信息。通过关联分析和统计技术可用来预测产品的价格走势;聚类分析可简化问题,使得数据更简单;孤立点分析可以找出罕见事件、灾情、金融事件及进出口方面存在的问题,对农业市场有很强的指导性。
发展趋势
多媒体数据发展
多媒体数据是指文字、图片以及音视频等数据,其在计算机网络领域有着非常广泛的应用。相对于传统的数据信息,多媒体数据具有更高的复杂性和数据类型,在实际处理过程中有更高的难度。对多媒体数据进行有效的挖掘能够进一步扩大数据挖掘技术的应用范围,获取更多的价值数据。
算法的进一步优化
算法是数据挖掘技术中的关键,算法的科学性与合理性直接关系到数据挖掘技术的应用水平。对算法进行优化和完善,加强算法的创新,能够提升数据挖掘技术的效率和准确性,扩大数据挖掘技术的应用范围。
与其他系统的集成
人们对数据处理需求的不断提升,仅仅依靠数据挖掘技术难以实现预期的数据处理结果,实现数据挖掘技术与其它计算机系统的集成和配合,能够更好的满足对数据处理的需求。同时,要尽可能的保障数据挖掘技术应用的灵活性,才能够将数据挖掘技术的作用充分发挥。
成功案例
改善客户信用评分
数据挖掘帮助Credilogros Cía Financiera S.A.公司改善客户信用评分。Credilogros Cía Financiera S.A.公司是阿根廷的一家信贷公司,该公司于2006年被gST Group收购,gST公司想要寻找一种新系统来使该公司能更好地管理客户相关的潜在风险,以便将承担的风险最小化。经过评估多个产品后,Gredilogros公司选择了SPSS Inc.的数据挖掘软件PASW Modeler来整合核心信息系统。开发出了用于具有信贷历史的客户和用于新客户的两个评分模型。
通过实现PASW Modeler,Gredilogors将用于处理信用数据和提供最终信用评分的时间缩短到了8秒以内,使得该组织能够迅速批准或拒绝信贷请求。该决策引擎还使得Gredilogros能够最小化每个客户必须提供的身份证明文档。
实时跟踪货箱温度
数据挖掘帮助DHL实时跟踪货箱温度。DHL是国际快递和物流行业的全球市场领先者,一开始它提供快递、水陆空三路运输等,但是后来美国FDA要求运输过程中药品装运的温度要达标,自此DHL的医药客户强烈要求公司能够给出一个更加可靠实惠的方案。这就要求DHL在递送的各个阶段都要实时跟踪集装箱的温度。
因此,DHL的母公司德国邮政世界网(DPWN)通过技术与创新管理(TIM)集团明确拟定了一个计划,准备采用RFID技术在不同时间点全程跟踪装运的温度。通过IBM全球企业咨询服务部绘制决定服务的关键功能参数的流程框架。这个方案使医药客户对运送过程中出现的装运问题提前做出相应,并增强了运送可靠性。
帮助理解气候变化
佐治亚理工学院地球与大气科学学院教授Annalisa Bracco说,随着全球数以百万计的数据分布在全球范围内,目前的模型过于依赖人类的专业知识来理解产出。于是,佐治亚技术团队开发了一种新的方法,这种方法打破了其他模式评估和分析算法的典型瓶颈。从比传统工具更独立的气候数据集中数据挖掘,将数据集的共性与用户的专用知识相结合,从而使科学家能够信任数据,并获得更可靠、更透明的结果。
相关争议
隐私问题
虽然使用数据挖掘工具直接暴露准确的机密数据的可能性很小,但探索性的数据挖掘工具可能会关联或者泄露机密的、敏感的个人信息。数据挖掘者可能会侵犯公民的个人数据隐私权,数据挖掘在数据收集阶段没有取得数据主体的同意并说明数据的用途、使用范围的前提下获取了公民的个人数据,例如:目前的网站大都配有监视用户上网习惯的 软件,甚至在未经授权的情况下就制作了用户的档案,记录用户的电子邮件地址和网上购物习惯。挖掘者非法公开个人数据、不当或错误分析个人数据和超常使用个人数据等都侵犯了个人的隐私。
伦理问题
随着大数据时代的来临,数据成了一种独立的客观存在,成为物质世界、精神世界之外的一种新的信息世界。数据还成为了一种土地、资本、能源等传统资源之外的一种新资源,也成为了煤炭、石油之后的新宝藏。因此,数据的所有权、知情权、采集权、使用权等,成为了公民在大数据时代的新权益,这些权益的滥用会引发新的伦理危机。从事数据挖掘活动的工作人员需要具备良好的职业道德观。把工作中用户的个人隐私信息当做金钱交易的筹码或窥探他人隐私的从业人员不符合职业道德。
相关法律
数据挖掘方式以间接挖掘与科技方式挖掘为主,中国《中华人民共和国网络安全法》《中华人民共和国消费者权益保护法》《电信和互联网用户个人信息保护规定》《网络交易管理办法》等腹部法律与规章都规定网络主体在收集用户信息时相用户明示、经用户同意、不得滥用用户个人信息等相关规定。此外,多国将挖掘文本与数据行为纳入著作权合理适用范围:英国修改《版权法》,专门制定了文本与数据挖掘例外条例,明确了文本与数据挖掘的合法性;法国修订《法国知识产权法典》,对著作权作品专门设置了挖掘,还对数据库权进行了限制;德国修订了《著作权及邻接权法》,规定了自动分析大量作品用于科研,允许使用者复制原材料并创建规范化和结构化的资料库,仅限为非商业目的。
相关软件
参考资料
DataMining:Whatitisandwhyitmatters.sas.2023-11-29
IBM Documentation.IBM.2023-12-05
What is CRISP DM?.datascience-pm.2023-12-05
TheJavaCommunityProcess(SM)Program.JSR 247: Data Mining 2.0.2023-12-20
通过 SPSS Inc. 的数据挖掘工作台改善客户信用评分.IBM.2023-11-29
学生学习笔记分享及解析——客户关系管理(18).微信公众平台.2023-11-29
科学家利用数据挖掘帮助理解气候变化.中国气象局.2023-11-29
大数据时代的伦理隐忧.大众网.2023-12-04
多国奖挖掘文本与数据行为纳入著作权合理使用范围.人民法院报.2023-12-04
针对数据分析人员的 Oracle Data Mining.Oracle.2023-12-04
IBM SPSS Modeler.IBM.2023-12-04
Data Mining Software, Model Development and Deployment, SAS Enterprise Miner | SAS.SAS.2023-12-04
RapidMiner Platform.rapidminer.2023-12-04