数据挖掘综述

点赞:19315 浏览:90841 近期更新时间:2024-03-30 作者:网友分享原创网站原创

摘 要 :大数据时代,所有企业都将由数据驱动,数据将成为企业和公共组织的重要资产.同时,企业更需要高效的大数据工具,让数据资产产生真正的价值.数据挖掘就是运用数据库、人工智能和数理统计等多方面技术从大量的实际应用数据中提取隐含信息和知识的过程,通过高度自动化地分析企业数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策.

关 键 词 :数据挖掘 大数据 市场营销 企业决策

中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2014)02-0080-02

数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题.数据挖掘己广泛地应用到社会的各个领域和行业,如商业领域中的客户关系、产品生产、市场营销等;金融领域中的股票交易市场、投资评估等;天文学领域的气象预报、气象灾害预测等;教育领域的高校学生管理、高校毕业生就业分析、高校教学质量的评估等.可以说,数据挖掘实是处在知识创造过程中最核心的位置,因此做好数据挖掘工作具有十分重要的意义.

1.数据挖掘的定义和本质

对于数据挖掘一般有两种定义,从广义上讲,数据挖掘,又称数据库中的知识发现,是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程,就是从大型数据集中挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程.原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据.发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的.发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护.从狭义上讲,数据挖掘则是指从特定形式的数据集中提炼知识的过程.

数据挖掘的本质是很偶然的发现非预期但很有价值的信息.这说明数据挖掘过程本质上是实验性的.数据挖掘的一个特定属性就是要处理的是一个大数据集.这就意味着,由于可行性的原因,我们常常得到的只是一个样本,但是需要描述样本取自的那个大数据集.数据挖掘所得到的信息应具有先前未知、有效和实用三个特征.

2.数据挖掘的发展背景

在这个信息爆炸的时代,如何从信息的汪洋大海中发现及时有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展怎么写作才行,否则大量的数据可能成为垃圾,甚至成为包袱.因此,面对人们被数据淹没却饥饿于知识的挑战,数据挖掘和知识发现技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力.

数据挖掘技术是人们长期对数据库技术进行研究和开发的结果.激发数据挖掘的开发、应用和研究有如下四个主要的技术理由:(1)超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记录;(2)先进的计算机技术,例如更快和更强大的计算能力和并行体系结构; (3)对巨大量数据的快速访问;(4)对这些数据应用精深的统计方法计算的能力.数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智能、机器学习.今天,这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数据集成,让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段.

国内对数据挖掘的研究晚于国外.国家通过自然科学基金对数据挖掘的研究进行支持,很多科研单位和院校都在这个领域获得了丰硕成果,这些单位包括中科院、清华大学、中国科大、复旦大学等,他们的成果为我国在此领域的发展起到了重要作用,得到了学术界的高度重视.

3.数据挖掘常用的方法

利用数据挖掘进行数据分析常用的方法主要有分类分析、回归分析、聚类分析、预警分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘.

(1)分类分析.客户细分需要进行客户特征分析,即用数据来描述或给出客户或潜在客户特征的分析过程.它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购写趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会.


(2)回归分析.如何使用数据挖掘来对不同的旨在保留客户的活动中进行建模将对整个客户保持工作起着重要的作用,这也就是流失模型价值所在.流失模型能预测在被激活后减少或停止使用一种产品或怎么写作的行为.它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等.

(3)聚类分析.通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,更好地了解自己的客户,向客户提供更合适的怎么写作.它可以应用到客户群体的分类、客户背景分析、客户购写趋势预测、市场的细分等.

(4)预警分析.数据挖掘方法可以为风险分析建立分类定位模型.在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则.风险分析是提供产品或怎么写作时存在潜在损失的行业所特有的.常见的风险类型出现在银行业和保险业,银行在放贷时存在金融风险.利用风险分析可以预测一个对象如期还贷或不还贷的可能性.一种贷款如抵押贷款或汽车贷款是安全贷款,另一种贷款如信用卡贷款为不安全贷款.

(5)Web页挖掘.Web因其易于导航、方便链接,融图形、音频、视频信息于一体的优越特性,迅速流行于全球,所载信息量巨大.Web页挖掘是利用数据挖掘技术从万维网的海量信息和数据中提取各种有用模式和信息,其中涉及到Web技术、数据挖掘、计算机语言学、信息学等多个领域的专业知识.对于企业而言,可以通过Web页挖掘、收集与企业生存相关的社会环境信息、市场信息、竞争对手信息、客户信息等,及时对外部环境信息和内部经营信息作出反馈和决策,未雨绸缪,以最快的速度解决企业面对的各种危机和潜在问题. 4 数据挖掘的社会需求和应用

人类早已步入信息社会,信息的重要性毋庸置疑.如何能在信息的海洋中迅速提取那些于我有价值的信息是生存的必要本领和竞争的必要手段,这就需要进行数据挖掘.具体而言,数据挖掘的社会需求和应用主要有表现在四个方面,即辅助研究,改进生产流程,优化市场营销,提高竞争优势.

(1)辅助研究.数据挖掘的辅助研究功能主要表现在医药和生物研究领域.数据挖掘技术可以协助研究人员快速分析巨量的医学数据和医生诊断经验,发现隐藏在海量数据背后的新的、具有学术价值的医学信息,为新药的发现提供一种新的思路和方法,帮助科研人员在大的数据库中发现隐含的知识,更好、更快、更有效地决策,加快药物研发速度,提高药物研发水平.此外,数据挖掘理论中的序列模式分析和相似检索技术等,已经被认为是DNA分析的有效工具,研究者们正在研究如何利用该技术从已经测得的基因数据库中找出各种疾病特定基因序列模式.数据挖掘技术还可以应用到医学图像分析中,借助于这一技术,图像特征能够实现自动提取和模式识别.更加令人欣喜的是,数据挖掘技术在医疗行业的应用,不仅可以协助医生更加准确地对病人进行诊断,还能预测医疗试验、外科手术和药物治疗的效果,对于缓和医患关系,节省治疗成本等都能起到积极作用.

(2)改进生产流程.数据挖掘改进生产流程的功能主要体现在工业领域.目前,数据挖掘已经成功地应用于从晶片制造到咖啡烘焙等一般的生产流程,用领域非常广泛.数据挖掘在改进生产流程中的应用概括地讲就是提取出影响生产进度的因素,避免生产的非正常中断,优化成产,从而节约成本.首先是提取数据,这些数据既包括能产生正面结果的数据,也包括产生负面结果的数据.其次是选择决策树算法依据数据判断出最重要的变量,再经过审定保留那些具有预测能力的变量.最后是进行建模与评估,形成生产规则.需要注意的是,由于不同工厂间的具体情况不同,这些规则并不能从一家工厂直接复制到另外一家工厂,因此数据挖掘工作不是一劳永逸的,应在成功的基础上不断进行研究.

(3)优化市场营销.由于信息的爆炸式增长,商业领域累积的数据库越来越大,不仅占用空间,且无法直接增加价值,由此人们认识到大量数据并非就是大量的信息,数据分析与萃取势在必行.因此,数据挖掘技术从一开始就是为应用而产生的,且迅速应用到了市场营销领域.世界上许多具有创新性的公司都采用数据挖掘的方式改进产品的推广模式,改善营销、销售、顾务营运上的不足,寻找最有价值的客户,以最小的成本获取最大的利益.例如银行可以通过分析客户的银行账户余额、客户已拥有的银行产品以及所处地点和信贷风险等标准来评价记录档案,这些评价可用于确定客户购写某一具体产品的可能性,使得管理人员不必一一分析基础数据,大大提高了工作效率.对于零售商而言,可以利用数据挖掘技术收集并分析上百万个交易数据,为各分店进行每周和每日的销售预测,还可协助制订季度销售预测、用人计划、存货管理、年度预算等,甚至还能帮助为新的分店选址.以美国拥有1100多家分店、年销售额近110亿美元的Staples连锁零售商店为例,它就是运用数据挖掘方法成功对各家分店进行管理,它采用的数据包括历史销售数据、客户(包括商户和家庭)的统计数据、分店所处的地段特征及该地段的竞争水平等一系列海量数据.卡夫食品公司也是通过对拥有3000万客户资料的数据库进行深入挖掘,得以了解特定客户的兴趣和口味,并以此为基础向他们发送特定产品的优惠券,并为他们推荐符合客户口味和健康状况的卡夫产品食谱.

数据挖掘在市场营销中的应用是基于“消费者过去的行为是今后消费倾向的最好说明”这一基本检测定,通过搜集和分析消费者消费行为的大量信息,以确定消费群体和个体的消费习惯、消费热点、消费层次和潜在的消费需求等,以此为基础,有针对性地进行特定内容的定向营销,不仅节约了营销成本,还大大提高了营销效果,为企业带来更多利润.

(4)提升竞争优势.在市场经济比较发达的国家和地区,许多公司都开始在原有信息系统的基础上通过数据挖掘对业务信息进行深加工,以构筑自己的竞争优势.数据挖掘在提升企业竞争优势上主要包括两个方面,一是提升企业自身实力,二是规避外部风险,具体来说主要包括分析企业内部经营信息,搜集外部环境信息,创新优质产品和怎么写作,改善和维护客户关系,进行企业供应链管理,识别风险和欺诈,控制和化解危机等.

5.数据挖掘需要注意的问题

(1)对数据的要求.由于大多数运营商面临的数据在质量、完整性和一致性方面存在很多问题,因此在利用这些数据进行数据挖掘之前,必须先对其进行抽取、净化和处理.

(2)对人员素质的要求.统计数据挖掘分析系统必须与实际紧密相联,在数据挖掘的多个环节中,都要求使用和分析人员不仅仅具备数据挖掘的相关知识,还必须有对企业经营管理流程和行业背景的深刻理解.

数据挖掘综述参考属性评定
有关论文范文主题研究: 关于数据的论文范文集 大学生适用: 学校学生论文、大学毕业论文
相关参考文献下载数量: 73 写作解决问题: 学术论文怎么写
毕业论文开题报告: 标准论文格式、论文题目 职称论文适用: 期刊发表、中级职称
所属大学生专业类别: 学术论文怎么写 论文题目推荐度: 优质选题

(3)数据挖掘的有效性.数据挖掘存在较长的应用周期,数据挖掘所发现的知识和规则必须让决策者理解并采纳,才能将知识转化为生产力,并通过实践不断检验和完善数据挖掘所产生的模型和规则,以使模型更具实用价值.

(4)数据库类型的多样性.一些数据库可能包含复杂的数据对象、超文本和多媒体数据、空间数据、时间数据或事务数据.由于数据类型的多样性和数据挖掘的目标不同,指望一个系统挖掘所有类型的数据是不现实的.为挖掘特定类型的数据,应当构造特定的数据挖掘系统.同样,对于不同类型的数据,应当有不同的数据挖掘系统.

(5)数据挖掘的局限性.虽然数据挖掘工具使用户不必再掌握高深的统计分析技术,但用户仍然需要知道所选用的数据挖掘工具是如何工作的,它所采用的算法的原理是什么.选用的技术和优化方法会对模型的准确度和生成速度产生很大影响.数据挖掘永远不会替代有经验的商业分析师或者管理人员所起的作用,它只是提供一个强大的工具.每个成熟的、了解市场的公司都已经具有一些重要的、能产生高回报的模型,这些模型可能是管理人员花了很长时间,作了很多调查,甚至是经过很多失误之后得来的.数据挖掘工具要做的就是使这些模型得到的更容易,更方便,而且有根据.

6.结语

总之,数据挖掘作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持活动扮演着越来越重要的角色.只有从数据中有效地提取信息,从信息中及时地发现知识,才能为人类的思维决策和战略发展怎么写作.