数据挖掘技术在连锁超市经营企业的应用

点赞:31780 浏览:145484 近期更新时间:2024-01-18 作者:网友分享原创网站原创

[摘 要]以决策树算法为例,从算法和实例两方面介绍了数据挖掘技术在连锁经营领域的应用,展示了数据挖掘技术在提高连锁超市决策水平、提升核心竞争力方面的重大价值.

[关 键 词]连锁超市数据挖掘决策树ID3

近年来,国内大型连锁超市都建立起以进销存系统为核心的信息系统,积累了海量经营数据,但其中蕴含的商业规律却很少得到开发和利用.将这些宝贵的资料转化为决策信息,需要借助于数据挖掘技术.

一、有关数据挖掘

数据挖掘是从海量数据中发现规律的过程.常用的挖掘算法有决策树、朴素贝叶斯等.决策树算法具有理解方便等优点,Quinlan提出的ID3算法是最具影响力的决策树算法.本文以ID3为例,介绍数据挖掘技术在连锁超市的应用.

1.ID3算法思想

设:每个样本由多个训练属性(K等于1,2,等,k)和一个预测属性组成,N个样本按照预测属性取值Ci(i等于1,2,等,c)的不同,划分成c个不同的样本集合,类别Ci中的样本个数为Ni.决策树的构造过程为:

(1)决策树的初始信息量为:.

(2)选择一个训练属性作为分类节点:①设每个训练属性(K等于1,2,等,k)有JK个不同的取值akj,按akj将N个样本分为JK个样本集.设akj样本集的样本数为nkj;②对于每个分支的nkj个样本,属于类别Ci的样本数目是nkji,则以训练属性为根的期望熵为:;③计算由训练属性引起的信息增益,即Gain()等于I(C1,C2,等,Cc)-E(I,);④选择产生最大信息增益的训练属性Ak0作为决策树的根,即Ak0满足Gain(k0)>Gain(k)(k等于1,2,等,K;且k≠k0);

数据挖掘技术在连锁超市经营企业的应用参考属性评定
有关论文范文主题研究: 关于连锁超市的论文范文数据库 大学生适用: 专科论文、学士学位论文
相关参考文献下载数量: 38 写作解决问题: 写作参考
毕业论文开题报告: 标准论文格式、论文设计 职称论文适用: 核心期刊、高级职称
所属大学生专业类别: 写作参考 论文题目推荐度: 经典题目

(3)按训练属性Ak0将样本分成Jk0个样本集.对每个叶节点上的样本子集依次利用上面的方法,选择一个训练属性作为该叶节点的下一级节点.

(4)按照上述步骤不断构造决策树,直至各样本子集只有一个类别.

2.ID3算法应用分析.下表是某超市所作的关于客户购写某商品意向的调查报告,下面以“年龄”、“性别”、“经济状况”为训练属性、“是否购写”为预测属性,构造一棵决策树,揭示年龄、性别、经济状况等因素对购写行为的影响.

在16个样本中,只有4个样本计划购写该商品,则根分支的初始信息量为:

如按“年龄”属性分类,6位小于35岁的样本中有1位计划购写,10位大于35岁的样本中有3位计划购写,故按“年龄”分类的期望熵为:

同理,可得E(性别)等于0.7142、

E(经济状况)等于0.7937.

由“年龄”属性引起的信息增益为:Gain(年龄)等于I(4,12)-E(年龄)等于0.0167;

同理,可得Gain(性别)等于0.0971、

Gain(经济状况)等于0.0176.

Gain(性)最大,故根节点按“性别”属性分类.按照上述算法继续分类,得到图1所示决策树.

二、数据挖掘实例

下面采用微软的AnalysisServices平台,分析连锁超市Foodmart的经营数据,考察“性别”、“婚姻状况”、“年收入”等训练属性与预测属性“会员卡类型”之间的关系,得到图2所示的决策树.

根据图2,第一层分支以“年收入”为分类标准,说明年收入是决定客户何种会员卡的首要因素.年收入最高(150K以上)的分支颜色最深,说明此类客户办金卡的概率最高.

根据图3,在年收入达150K的客户分支上,分类标准为“婚姻状况”,表明婚姻状况是决定该分支客户是否办金卡的首要因素,即已婚客户办金卡的概率远大于单身客户.

三、结束语

上例揭示的规律对连锁超市提高广告的针对性、开发优质客户具有重要意义.目前,数据挖掘技术还被国际连锁巨头广泛用于防止客户流失、商品摆放布局等方面的决策.国内连锁超市经营企业应该重视数据挖掘技术的应用,以提高决策的科学性,在激烈的竞争中求得生存和发展.