电子商务中客户行为特征的挖掘方法

点赞:11447 浏览:46705 近期更新时间:2024-02-22 作者:网友分享原创网站原创

[摘 要] 本文讨论了Web数据挖掘的一个重要分支―Web用法挖掘在电子商务客户行为特征挖掘中的应用.介绍了客户行为特征挖掘的主要方法,并详细描述了一个基于粗糙集的电子商务客户行为特征挖掘模型.

[关 键 词 ] 电子商务 客户行为特征 Web 用法挖掘 粗糙集

一、Web用法挖掘的概念

Web使用记录实际上是一种用户浏览网站的操作流水记录,它详实地记录着使用者对Web怎么写作器访问的细节情况.Web用法挖掘即Web使用记录挖掘是指通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式,通过分析日志记录中的规律,来识别用户的忠实度、喜好、满意度,并发现潜在用户,增强站点的怎么写作竞争力.

Web使用记录除了指怎么写作器的日志记录外,还包括写作技巧怎么写作器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、鼠标点击流等一切用户与站点之间可能的交互记录.

利用Web用法挖掘来对客户的行为特征进行挖掘是指从Web用户的使用记录集合C中发现隐含的模式P.如果将C看作输入,P看作输出,那么客户行为特征挖掘的过程就是从输入到输出的一个映射:ε∶C→P

二、客户行为特征挖掘的必要性

客户行为类信息是指客户的消费行为、客户偏好和生活方式,客户满意度、客户忠诚度及与企业的联络记录等相关信息.但这些信息并不等同于客户行为特征信息.通过对上述信息进行客户行为模型与数据挖掘处理,才能提炼出客户的行为特征信息,从而为企业的决策提供精确的数据支持.客户行为特征挖掘的重要性体现在以下几个方面:

1.发现潜在客户,提高现有客户忠诚度及满意度.

2.对系统改进提供决策依据.如通过分析网络的非法入侵数据找到系统弱点,从而改进系统以提高站点安全性.

3.对改进站点结构与内容提供决策依据,使站点的结构和内容更加优化与合理以方便用户使用.

4.帮助销售商合理安排销售策略.聚类客户,对不同类别客户提供个性化怎么写作.

5.识别竞争对手,保护企业敏感信息,有效地发现并阻止商业情报活动.

三、客户行为特征挖掘的方法

利用Web用法挖掘技术来对客户行为特征进行挖掘是一个有效的方法.基于Web的数据挖掘作为一个完整的技术体系,在进行挖掘之前的信息获得IR(Information Retrieval)和信息抽取IE(Information Extraction)相当重要.信息获得(IR)的目的在于找到相关Web文档;而信息抽取(IE)的目的是对数据进行浓缩并给出它的紧凑描述.

客户行为特征挖掘大致可以分为数据采集、数据清洗、数据挖掘、和模式分析几个主要步骤.

1.数据采集

数据采集是客户行为特征挖掘流程中的重要部分.在数据采集时要尽可能地搜索所有与客户行为特征有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据.

(1)怎么写作器端采集.怎么写作器端的Web日志是客户行为特征挖掘的的重要数据来源.在怎么写作器端,客户的行为可以被TCP/IP包监测器跟踪,以提取客户的请求信息.怎么写作器主要以Web日志的形式记录客户每一次的网页请求信息.主要包括:客户标识、远程IP、请求日期和时间等,并且可以记录COOKIES和查询参数来描述各个不同客户的行为.这些日志文件能够以常用日志格式或扩展日志格式存在.为了做好下一步数据清洗,可以根据客户行为特征挖掘的具体目的来调整Web日志的记录字段,这样既可以将不必要的数据去掉,也可以增加一些在后面分析时可能用到的字段,这样采集的数据更加便于后面的数据清洗.

使用怎么写作器端数据采集可以实时采集数据,并能把来自不同怎么写作器的数据整合到一个日志中.但同时也存在获取客户信息失真及信息量不足等问题.

(2)客户端采集.客户端数据采集方法需要用户的合作如自觉使用修改过的浏览器,或者实现jascript 和ja applets的功能.在使用客户端数据采集时可能会遇到客户不配合及涉及客户隐私等问题.

(3)写作技巧器端采集.在写作技巧器端可以采集多用户甚至多网站的行为.写作技巧器端数据采集适合有大量静态页面的网站.但使用写作技巧器端数据采集时遇到的问题是不能区分写作技巧器后端的不同的顾客(群).

2.数据清洗

采集到的信息通常是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接对采集到的数据进行数据挖掘,而必须经过必要的数据处理.数据清洗目的是从取得的原始数据中剔除无用信息和将信息进行必要的整理.经过数据净化,数据可以十分集中.

电子商务中客户行为特征的挖掘方法参考属性评定
有关论文范文主题研究: 关于电子商务的论文范例 大学生适用: 函授论文、硕士论文
相关参考文献下载数量: 35 写作解决问题: 如何怎么撰写
毕业论文开题报告: 论文提纲、论文摘要 职称论文适用: 核心期刊、职称评副高
所属大学生专业类别: 如何怎么撰写 论文题目推荐度: 免费选题

在进行客户行为特征挖掘时,应该根据分析需要,首先确定需要的行为,再确定这些行为出现的一些条件和特征,从而确立一些分析规则,将这些行为特征挖掘出来,对于不需要的行为数据应该尽量过滤.

3.数据挖掘

客户行为特征挖掘常用的分析规则有:遍历路径,关联规则,聚集发现和分类发现.

(1)遍历路径.遍历路径分析的侧重点在于分析用户访问路径间的前后序列关系.通常,一个会话(Si)是一个以时间为顺序的页视图(Vi)(单个用户在某次访问一个站点时所产生)的集合.而每个页视图Vi又具有标志符vi,页文件hj,首先访问时间tf,最后访问时间tl,视图结束时间te的属性.如下表示:

Si等于{V1...Vn}

Vi等于

对单用户,可以将上述集合用一个有向图来表示,Gi等于(Si,Ei),

其中:Si是页面的集合,Ei是页面之间的超连接集合, 定义页面为图中的顶点,而页面间的链接定义为图中的有向边.顶点Si的入边表示对Si的引用,出边表示Si引用了其他的页面.

对于多用户在某时间段访问站点时产生的会话则可以用单用户会话的集合Gi来表示, 即

G等于{G1, G2, 等 Gn}, 也即:

G等于{{S1,E1},{S2,E2} 等 {Sn,En}}.

从上式可以得到:

G等于{{S1,S2, 等 Sn}, {E1,E2, 等 En}}, 也即是 G等于{S, E}.

在遍历路径时,首先在每个用户会话Gi中找出该用户的所有最大向前路径Ei, 然后在所有用户会话G中的子集合--最大向前路径E中,找出频繁出现的连续子序列.要寻找这些频繁遍历路径,必须定义这些连续子序列的长度和支持度,所谓支持度就是包含频繁遍历的用户会话数目.

(2)关联规则.关联规则分析主要用于从用户访问序列数据库的序列项中挖掘出相关的规则,也就是用户的访问页面之间的潜在联系,而这些页面之间可能并不存在直接的参引(Reference)关系.

在客户行为特征挖掘中,关联规则指:只要页面的支持度大于某个被给定的阀值,那么这些页面就都被访问.即只要访问页面A就有可能访问B(和C...).从Web日志中挖掘出最大频繁访问项集,这个项集就是关联规则挖掘出来的用户访问模式.最常用的方法是用APRIOR算法.关联规则能够有助于Web设计者重新组织站点的内容编排.

(3)聚集发现.聚集发现是把整个原数据分成不同的群组.它的目的是要在群与群之间差别很明显,而同一个群内的数据要尽量相似.在WEB方法挖掘中,主要涉及两种聚类:用户聚类和页聚类.用户聚类将具有相似访问特性的用户归在一起,在站点的个性化怎么写作中,这种技术尤其有用.页聚类将内容相关的页面归在一起,在搜索引擎和WEB结构设计领域中,这种技术发挥着巨大作用.


此外聚集发现还可以作为其他算法(如特征和分类等)的预处理步骤.聚集发现比较常用的分析方法是组织神经网络方法和K-均值法.

(4)分类发现.与聚集发现不同,分类发现要解决的问题是为一个事件或对象分门别类地归入预先设定好的几个类中.分类方法是建立一个分类函数或分类模型(分类器),该模型能把数据库中的数据项映射到给定类别中的某一个.分类发现可以从历史数据中自动推导出对给定数据的推广描述,从而能对未来数据进行预测.在客户行为特征挖掘中, 分类发现可以根据web日志得到的个人或共同的访问模式,得出访问某一怎么写作器文件的用户特征分类.

分类器的构造方法有统计方法、机器学习方法、神经网络方法、粗糙集方法等,它们使用不同的算发.其中粗糙集方法(Rough Set)是处理知识的有效方法,已在众多领域得到广泛的应用, 所建立的基于粗糙集的客户行为特征挖掘模型是有效、可行的.

4.模式分析

模式分析是客户行为特征挖掘的最后步骤.它的目的是对模式发现过程中产生的规则和模式进行过滤,从中滤除不感兴趣的部分.

客户行为特征挖掘的结果应当用一些直观的、易于理解的可视化的方法提交给使用者.此外,应当让用户能够以一种方便的方式参与挖掘分析过程,这样可能会得到更好的、用户更乐于接受的结果.

四、一种基于粗糙集的客户行为特征挖掘模型

在进行客户行为特征挖掘方案设计时,可以根据客户行为特征挖掘的具体目的对Web日志记录字段进行调整,增加一些在后面分析时可能需要用到的字段.如:客户标识、远程IP、请求日期和时间、页视图集合S等于{S1,S2,S3,S4}等.

检测设通过遍历路径分析,我们得到了如表一所示的用户浏览记录,然后利用粗糙集的约简算法对数据进行清洗.

表1是经过遍历路径分析后得到的用户浏览记录,S1,S2,S3,S4代表4种页视图集合S的子集.IP为Web日志中来访客户的IP地址.Yes表示该访客浏览了某个页视图集合S的子集;No则表示没有.

在利用粗糙集的约简算法对数据进行清洗时,主要是计算知识的约简、核、上近似及下近似(正域).本模型以决策规则为例说明S1、S2、S3、S4之间的从属关系,也即访问S1或S2或S3的用户会不会访问S4.

根据粗糙集理论,论域U等于{C1,C2,C3,,C5,C6,C7,C8},

条件属性集C等于{S1,S2,S3},

决策属性集D等于{S4}.

容易计算得出:

U关于等价关系C的划分U/C等于{X1,X2,X3,X4,X5},

其中,X1等于{C1},

X2等于{C2,C3},

X3等于{},

X4等于{C5,C7},

X5等于{C6,C8}.

U关于等价关系D的划分U/D等于{Y1,Y2},

其中,Y1等于{C2,C3,C6,C7,C8},

Y2等于{C1,,C5}.

类似地,U/{S1}等于{{C1,C2,C3},{,C5,C6,C7,C8}},

U/{S2}等于{{C1,C2,C3,,C6,C8},{C5,C7}},

U/{S3}等于{{C2,C3,C5,C6,C7,C8},{C1,}},

U/{S1,S2}等于{{C1,C2,C3},{,C6,C8},{C5,C7}},

U/{S1,S3}等于{{C1},{C2,C3},{},{C5,C6,C7,C8}},

U/{S2,S3}等于{{C1,},{C2,C3,C6,C8},{C5,C7}}

以下计算正域:

posC(D)等于{ C1,C2,C3,,C6,C8}

pos(C-{S1})(D)等于{ C1,,C2,C3,C6,C8}等于posC(D)

pos(C-{S2})(D)等于{ C1,C2,C3,}≠posC(D)

pos(C-{S3})(D)等于φ≠posC(D)

pos(C-{S1,S2})(D)等于{ C1,}≠posC(D)

pos(C-{S1,S3})(D)等于φ≠posC(D)

pos(C-{S2,S3})(D)等于φ≠posC(D)

因此,C的D约简为{S2,S3}.故表1经过粗糙集数据清洗后得到表2.

决策规则的提取

定义决策规则为:

Rij:des(Xi) → des(Yj),Xi∩Yj≠0.

其中,des()为对等价类的描述.


定义规则Rij的确定性因子μ(Xi,Yj)等于| Xi∩Yj |/| Xi |.显然,

0<μ(Xi,Yj)≤1.

根据粗糙集理论,当确定性因子μ(Xi,Yj)等于1时,Rij是确定的;当0<μ(Xi,Yj)<1时,Rij是不确定的.

这样,可以得到以下确定性规则:

R12:(访问S2)且(不访问S3)→ (不可能访问S4)

R21:(访问S2)且(访问S3)→ (可能访问S4)

R32:(访问S2)且(不访问S3)→ (不可能访问S4)

R51:(访问S2)且(访问S3)→ (可能访问S4)

不确定性规则为:

R41:(不访问S2)且(访问S3)→ (可能访问S4),μ(X4,Y1)等于0.5

R42:(不访问S2)且(访问S3)→ (不可能访问S4),μ(X4,Y2)等于0.5

模式解释:

在实际应用中挖掘到的模式和规则数量通常都很大,在模式解释之前还必须对挖掘到的大量模式和规则进行筛选与合并.就本例来说,经过筛选、合并挖掘到的6条模式和规则后最终可以得到两条确定性规则,即:

1.(访问S2)且(访问S3)→ (可能访问S4)

2.(访问S2)且(不访问S3)→ (不可能访问S4)

在进行网站结构改进时,可基于这两条确定性规则作出决策:S1与S2链接,而没有必要与S3、S4、S4链接;S2与S3, S3和S4进行链接;而将S2和S4的链接断开以方便用户使用.对于不确定规则,可作参考或直接删除均可.

五、小结

使用Web用法挖掘技术来进行电子商务客户行为特征的挖掘是一项复杂的技术.本文通过给出的一个基于粗糙集的客户行为特征挖掘模型来讨论了数据挖掘在电子商务系统应用中的一个重要分支―Web用法挖掘.并重点论述了客户行为特征挖掘中的数据收集、数据预处理及数据挖掘分析部分.运用Web数据挖掘技术对电子商务网站上的各种数据源进行挖掘,发现相关的一些知识模式,可以指导企业更好地运作站点和向客户提供更优质的个性化的怎么写作,能有效提高商业站点的竞争力.

子商务[J].商场现代化,2007(9S)

[2]袁 柱:电子商务中Web数据挖掘的应用研究[J].商场现代化,2007(8S)

[3]张文修等:粗糙集理论与方法[M].北京:科学出版社,2001

[4]高 燕 胡景涛:Web数据挖掘原理、方法及应用[J].现代图书情报技术,2002

[5]王玉珍:Web数据挖掘的分析与探索[J].计算机发展与应用,2003