数据挖掘的现状与未来

点赞:4880 浏览:17662 近期更新时间:2024-03-12 作者:网友分享原创网站原创

摘 要 :随着数据获取设备和手段的发展,设备获得了大量的数据,如何充分利用这些数据,从数据中挖掘出有价值的信息,是目前迫切需要解决的问题.该文对数据挖掘技术的定义、步骤以及类型做了简单介绍,最后提出了数据挖掘未来所面临的挑战.

关 键 词 :数据挖掘;定义;类型;挑战

中图分类号:TP311文献标识码:A文章编号:1009-3044(2012)14-3221-02

Data Mining Status and Future Development

FENG Xin1, ZHANG Kai2

(1.Hunan Chemical Vocational Technical College,Zhuzhou 412011,China, 2. Zhongnan University of Economics and Law, Wuhan 430073, China)

Abstract: With the data acquisition equipment and means of development, Equipment made a lot of data, how to make full use of the da ta, data from mining out valuable information, is the urgent need to address the problem. In this paper, the definition of data mining tech nology, processes and type also reviewed, finally puts forward the data mining future challenges.


Key words: data mining, definition, type, challenge

如果把数据看成是地表的泥土和石头,而信息是隐藏在里面的矿藏,数据挖掘就是把埋藏在地表下的矿藏挖掘出来.

1数据挖掘的定义

现今社会的各行各业在处理日常事务时,几乎都离不开数据.例如到便利商店购物,或到图书馆借还书,即使是日常使用的手机里,也存放着各式各样的数据.主要是因为数据的储存装置已非常便宜,不需再斤斤计较.但伴随而来的是,数据的产生和储存的速度远超过人们所能分析和消化的速度.在这样一个周遭都是数据的环境中,要担心的已不是手边没有数据可以分析,而是烦恼如何有效率地把手边的数据转化成有用的信息.因为有很多的信息隐藏在数据的背后,如果能从数据中挖掘出有用的信息加以运用,可以增加个人或组织的竞争力.

数据挖掘的目的就是希望从海量数据中,使用自动或半自动的方式把隐藏在数据中的有用信息发掘出来.如果把数据看成是地表的泥土和石头,而信息是隐藏在里面的矿藏,数据挖掘就是把埋藏在地表下的矿藏挖掘出来,因此数据挖掘也称为资料采矿.

数据挖掘和一般用统计方法来进行资料分析有个很大的不同.统计分析希望能用单一规则或单一模式来显示数据的性质,但大多数的数据是由多条规则或多个模型混合产生的.数据挖掘则是除了运用统计的概念来判读资料的性质外,更善用计算机的高运算效能,来归纳哪一条规则或哪一个模型适合用来解读哪一部分的资料,如此可使数据的诠释更具弹性,也较能发掘出真正隐藏在数据背后的信息.因此简单来说,数据挖掘就是以统计学和信息科学为基础,所发展出来能快速分析资料的方法.

为了分清数据挖掘和一般数据检索的不同,以某一银行的信用卡发放为例.如果只是把现有的信用卡使用者做一些数据的整理,以了解目前的使用状况,那只是一般的数据检索而已,数据库管理系统大都会提供相关的数据检索功能来汇整出这些信息.

数据挖掘的现状与未来参考属性评定
有关论文范文主题研究: 计算机类论文范文 大学生适用: 学院学士论文、学术论文
相关参考文献下载数量: 79 写作解决问题: 写作资料
毕业论文开题报告: 论文任务书、论文题目 职称论文适用: 职称评定、中级职称
所属大学生专业类别: 写作资料 论文题目推荐度: 优质选题

但数据挖掘要做的是如何从信用卡使用者的个人、刷卡和付款资料,分析哪些新的申请者应核发信用卡,哪些应拒绝核发.其余的新申请者则是无法用计算机来自动判断,因而人工只需处理这一部分的新申请者.如此不但可节省审核的人力,也可进一步了解适合和不适合核发信用卡的主要原因,而一般的数据检索并无法提供这一类的信息.

另外以异常值的检测为例,从统计学的观点来看,如果数据服从常态分配,则可以设定离平均值正负三个标准差以上的是异常值.由于可以从一组数据计算出平均数和标准差,因此判定的标准非常明确,很多制造程序或产品都是采用这样的标准来判断生产线的运作是否正常.但如果用这样的标准来进行网络异常入侵的检测,由于异常入侵的种类非常多,其异常的行为必须有一般计算机的使用行为来做对照,才能猜测某一作业是否是入侵行为.更棘手的是,很多异常入侵的方式是新发展出来的,以前从未发生或被发现过,因此无法用一般的数据检索方式来进行网络的异常入侵检测.

2数据挖掘的步骤

为了能从资料中挖掘出有用且非显而易见的信息,数据挖掘的进行主要分5个步骤.首先是确定目标,了解进行数据挖掘的目的.因为在目的不明的状况下,无法知道应搜集哪些数据来做分析,或该使用哪一类型的工具来进行挖掘.而且数据挖掘的成本比使用统计方法或数据检索的成本高,因此要确认统计方法和数据检索都无法产生所需要的信息后,才适合使用数据挖掘.在明确目标后,接着是对资料进行整理和搜集,得出适合挖掘的数据.由于现在数据的来源有很多种方式.数据型态除了传统的文(字)数字数据外,还有网页格式、语音和图像数据.数据挖掘的第2个步骤,就是把这些不同来源和格式的资料搜集起来,并用适当的格式来存放.

搜集好的资料并不见得就可以进行数据挖掘,因为数据中可能有些有异常,或是有些字段的值无法取得,这些都会直接影响到数据挖掘的结果.因此第3个步骤是做数据的前置处理.这个步骤除了处理异常值和遗漏值外,还要考虑字段是摆放数字还是文字,以及每个字段的必要性.另外为了避免字段的度量对结果造成影响,还要考虑是否进行数据的正规化.例如衡量长度时使用公尺或公分,会使该字段有一百倍的差距,而这一百倍的差距有可能严重影响到该字段在数据挖掘时的重要性.

第4个步骤就是对数据进行挖掘.数据挖掘除了分类、关联分析及分群这3种公认的类型外,其余的类型到目前为止并没有一致的见解,因此后续会针对这3种公认的类型做进一步的说明.对于一开始设定的目标,要了解适用的数据挖掘类型是哪一种,否则无法得到有用的信息.甚至往往为了能得到有意义的挖掘结果,必须结合多种类型的数据挖掘工具.因此了解各类型数据挖掘的定义和数据分析方法后,才能选择适当的工具进行数据挖掘.

最后对于挖掘结果的诠释,则要倚赖在线工作人员具备的背景知识来解读挖掘的结果.因此这一部分最好由数据挖掘的人员和产生数据的人员合作,除了能适切地诠释挖掘结果外,也才能知道该如何把结果应用在实务上.

如果发现挖掘中的步骤有问题,则应考虑回到前面的步骤去重新验证.例如认为数据挖掘的结果不理想,可以考虑使用不同的正规化方法来处理资料或进行字段转换,这样或许可以产生较佳的挖掘结果.如果还是不太理想,可能是因为有些有用的字段没有被选取,如果能回到资料取得的步骤重新检视,或许所得的结果就能让人耳目一新.

几乎在所有的数据挖掘案例中,都要不断地回到上一步骤去验证,并进一步从挖掘结果中思考应如何修正才能获得较佳的结果.在如此不断来回的测试中,累积对数据挖掘的经验,也才能得到满足当初所设定目标的结果.

3数据挖掘的类型

虽然数据挖掘的类型该怎么划分,到现在还没有一致的见解,但公认分类、关联分析和分群3种类型的数据挖掘方式,是其中最主要的.分类的方式主要是从现有的资料中,归纳出一个较能解释这些资料的模型,等将来有新的数据产生时,就用这个模型来预测这笔新数据的类别值.

关联分析最早是由美国的量贩店发展出来的,用来了解顾客的购写行为中,是否会有一些物品存在一起被购写的关联性.最有名的例子就是,该量贩店发觉有一部分的顾客会同时写尿布和啤酒.由于尿布是婴儿用品而啤酒是大人喝的,因此一开始对这二种物品经常被一起购写感到有些惊讶.但深入了解后才知道,原来大多数有婴儿的家庭,其男主人检测日会一边带小孩一边看电视转播的运动节目,因此会准备啤酒来喝.挖掘出这样的购写行为后,量贩店便改变物品摆放的位置,把尿布和啤酒摆在相邻的货架或走道,让顾客较容易找到所需要的物品,因而提高了顾客对该量贩店的怎么写作满意度.

数据的分群是希望尽量把相似的资料归在同一群,并把不相似的数据尽量分在不同群.当针对一整组的数据进行其它的挖掘工作时,有时候结果会过于复杂而无法予以适当地诠释,或是无法得到较精简且有用的结果.遇到这种情况时,若能先把资料进行分群,然后再对每一群的资料个别进行挖掘,往往能得到较有用且清晰的结果.

不管是分类、关联分析、分群或其它的数据挖掘工具,衡量一个数据挖掘方法的优劣主要是从3方面:分析效能、运算效率和结果诠释.现今的数据挖掘方法很少能在这3方面都具有绝对的优势,因此应从这3方面来认识一个数据挖掘工具,然后根据自身的需求选择适合的工具以进行数据的挖掘.

4数据挖掘的未来挑战

当数据的产生和储存越来越容易之际,对于数据挖掘工具的需求越来越多,要求也越来越高.因此为了因应数据处理的新需求,数据挖掘方法也不断地演进.

对于一般文数字的数据,现行的数据挖掘方法要面对的挑战是如何处理大量的资料.虽然数据挖掘工具是希望能自动分析或过滤大量的数据,但当数据笔数相当庞大时,如何在有限的时间内整理出有用的结果,对任何一个数据挖掘工具都是莫大的挑战.

目前大多数的数据挖掘方法,主要还是用来处理数字的数据,要把这些方法扩展成可以处理非数字的数据并不容易.因为声音和影像的储存格式有很多种,要萃取出声音或影像的字段或维度以便后续的数据挖掘,到现在还没有一定的标准做法,表示这种非数字的数据挖掘还有很长的一段路要走.