Web数据挖掘其在电子商务中的应用

点赞:5814 浏览:19372 近期更新时间:2024-01-19 作者:网友分享原创网站原创

[摘 要]电子商务是现代商业模式,数据挖掘是先进的信息处理技术,因此数据挖掘在电子商务中具有广阔的应用前景.本文主要介绍了Web数据挖掘的概念和分类,论述了电子商务中Web数据挖掘的过程和方法,最后阐述了Web数据挖掘技术在电子商务中的应用.

[关 键 词]Web数据挖掘电子商务

一、引言

电子商务是利用计算机技术、网络技术和远程通信技术,实现整个商务(写卖)过程中的电子化、数字化和网络化.在全球范围内,基于Inter的电子商务迅猛发展,促使各企业经营者必须及时搜集大量的数据,并且将这些数据转换成有用的信息,为企业创造更多潜在的利润.利用Web数据挖掘技术可以有效地帮助企业分析从网上获取的大量数据,提取出有效信息,进而指导企业调整营销策略,给客户提供动态的个性化的高效率怎么写作.

二、Web数据挖掘

1.Web数据挖掘的概念

数据挖掘是指从数据库中的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的过程.Web数据挖掘是数据挖掘技术在Web环境下的应用,是从Web文档和Web活动中发现潜在的、有用的模式或信息.它是一项综合技术,涉及到Inter、人工智能、计算机语言学、信息学、统计学等多个领域.

2.Web数据挖掘的类型

电子商务中Web信息的多样性决定了挖掘任务的多样性.按照Web处理对象的不同,Web数据挖掘可以分为以下三种类型:


(1)Web内容挖掘(WebContentMining):可分为Web页面内容挖掘和搜索结果挖掘.前者指的是对Web页面上的数据进行挖掘.而后者指的是以某一搜索引擎为基础,对已搜索结果的挖掘,以得到更精确有用的信息.Web内容挖掘常用的方法有WebOQL和Ahoy.

(2)Web结构挖掘(WebStructureMining):可分为超链接挖掘、内容挖掘和URL挖掘.整个Web空间里,有用的知识不仅包含在Web页面的内容之中,而且包含在页面的结构之中.Web结构挖掘是挖掘Web潜在的链接结构模式,是对Web页面超链接关系、文档内部结构、文档URL中的目录途径结构的挖掘.Page2Rank方法就是利用文档间链接信息来查找相关的Web页.

(3)Web使用挖掘(WebUsageMining):可分为一般访问模式挖掘和个性化怎么写作模式挖掘.它是从Web的访问记录中抽取感兴趣的模式.WWW中的每个怎么写作器都保留了访问日志,记录了关于用户访问和交互的信息.分析这些数据可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的怎么写作.

3.电子商务中Web数据挖掘的数据对象

(1)怎么写作器日志数据.客户访问站点时会在Web怎么写作器上留下相应的日志数据,这些日志数据通常以文本文件的形式存储在怎么写作器上,一般包括severlogs、errorlogs、cookielogs等.

(2)写作技巧怎么写作器数据.网站怎么写作器日志只记录用户对某个网站的访问,而写作技巧怎么写作器日志记录用户对所有网站的访问.写作技巧怎么写作器相当于在客户浏览器和Web怎么写作器之间提供了缓存功能的相似度检测怎么写作器.它的缓存功能减少了Web怎么写作器的网络流量,加快了网页的运行速度.同时将大量的用户访问信息通过写作技巧日志的形式保存起来.

(3)Web页面.它主要是指HTLM和XML页面的内容,包括本文、图片、语音、图像等.

(4)Web页面超级链接关系.它主要是指页面之间存在的超级链接关系.

(5)客户登记信息.它是指客户通过Web页输入的,要提交给怎么写作器的相关用户信息.这些信息通常是关于用户的人口特征.客户登记信息需要和访问日志集成,才能提高数据挖掘的准确度,使之能更进一步的了解客户.

(6)异构数据源.由于电子商务交易是在Inter网上进行,数据库的结构各异,但其中涵盖着许多价值很高的信息资料,如果用Agent智能手段捕获这些信息源,对提高电子商务挖掘信息价值是很有益的.

4.电子商务中Web数据挖掘的过程

(1)数据预处理.它包括数据清理、用户识别、用户会话识别、访问路径补充和事务识别等步骤.

数据清洗的目的是删除Web日志中与数据不相关的冗余项,缩小被挖掘数据对象的范围.

在数据净化后就必须确定单一的用户,用户识别的目的就是对用户惟一性的识别.用户识别可以借助于cookie技术、用户登记技术和启发性规则来实现.

用户会话识别的目的是将每个用户的访问信息划分成若干个独立的会话进程.最简单的方法是采用超时估计的办法,即当对页面之间的请求时间间隔超出所给定值时,即可以认为用户已经开始了一次新的会话.

因为页面缓存技术和写作技巧怎么写作器的广泛使用,使得Web怎么写作器访问日志中所记录的可能不是用户完整的访问路径.不完整的访问日志不能准确地反映用户的访问模式,所以有必要进行访问路径的补充.进行路径补充可以利用Web站点的拓扑结构,对页面进行分析.

事务识别是建立在用户会话识别的基础上的,其目的是依据数据挖掘任务的需求将事务做分割或合并处理,使其适合于数据挖掘需求的分析.

(2)模式识别.对预处理之后的数据进行处理得到相应的事务数据库.在事务数据库基础上进行数据挖掘,需要进行两个方面的工作:一是将事务数据库整理变换成与一定挖掘技术相适应的数据存储形式;二是利用数据挖掘算法挖掘出有效的、新颖的、潜在的、有用的及最终可以理解的信息和知识.可用于Web的挖掘技术有路径选择、关联分析、分类规则、聚类分析、序列分析、依赖性建模等.

(3)模式分析.该阶段的主要任务是从上一阶段收集的数据集中过滤掉不感兴趣和无关联的数据及模式,发现有趣模式.最常见的模式分析方法是SQL语言知识查询机制,也可以利用存储Web使用数据的数据库进行数据导入,再利用OLAP方法发现数据中的特定模式结果.

(4)可视化.主要是采用可视化的技术以图形界面的方式表示挖掘的成果.

三、电子商务中的Web数据挖掘技术

1.路径分析(PathAnalysis)

路径分析是一种找寻频繁访问路径的方法,它通过对Web怎么写作器的日志文件中客户访问站点的访问次数分析,挖掘出频繁访问路径.例如,某客户从某一站点访问到某一感兴趣的页面后就会经常访问该页面,通过路径分析确定频繁访问路径,可以了解客户对哪些页面感兴趣,从而更好地改进设计,为客户怎么写作.

用路径分析技术进行Web数据挖掘时,最常用的是图.因为一个图代表了定义在网站上的页面之间的联系.图最直接的来源是网站结构图,网站上的页面定义成节点,页面之间的超链接定义成图中的边.其他的各式各样的图也都是建立在页面和页面之间联系或者是一定数量的学习者浏览页面顺序基础之上的.那么,基于Web数据挖掘,就是从图中确定最频繁的路径访问模式或大的参引访问序列.

2.统计分析(StatisticsAnalysis)

统计分析是从Web站点中抽取知识最常用的方法,对会话文件中的各个维度,例如浏览时间、路径长度,都可以进行频度、平均值的统计分析.许多Web浏览分析工具会定时提交统计分析报告,这些报告的内容通常包括最频繁被访问的页面、页面的平均浏览时间和平均路径长度,有些统计报告还提供了简单的错误分析功能,例如探测非法访问的次数、出错最多的URL.尽管这种分析缺少深度,但仍有助于改进系统性能,增强系统安全性,便于站点修改,并能提供决策支持.

3.关联规则(AssociationRegulation)

关联分析的目的是为了挖掘出隐藏在数据间的相互关系.在电子商务中,关联规则的发现也就是找到客户对网站上各种文件之间访问的相互联系.联系的问题就是得到如下形式的规则:“”,其中与均为在数据库中相关数据特征属性值的集合.例如,用关联规则技术,我们可以发现:如果客户在一次访问行为中,访问了页面/page1时,一般也会访问页面/page2.进行Web上的数据挖掘,构建关联模型,我们可以更好地组织站点,减少用户过滤信息的负担,实施有效的市场策略,增加交叉销售量.

4.序列模式(SequentialPattern)

序列模式分析的目的是为了挖掘出数据间的前后或因果关系,就是在时间戳有序的事务集中,找到那些“一些项跟随另一个项”的内部事务模式.例如,在/page1上进行过在线的顾客,有60%的人在过去10天内也在/page2上下过定单.通过序列模式的发现,能够便于电子商务的经营者预测客户的访问模式,在怎么写作器方选取有针对性的页面,以满足访问者的特定要求;网站的管理员可将访问者按浏览模式分类,在页面上只展示具有该浏览模式的访问者经常访问的链接,而用一个“更多内容”指向其他未被展示的内容.当访问者浏览到某页面时,检查他的浏览所符合的序列模式,并在显眼的位置提示“访问该页面的人通常接着访问”的若干页面.

5.分类规则(ClassificationRegulation)

分类要解决的问题是为一个事件或对象归类.设有一个数据库和一组具有不同特征的类别(标记),该数据库中的每一个记录都赋予一个类别的标记,这样的数据库称为示例数据库或训练集.分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它数据库中的记录进行分类.例如,经过Web挖掘发现,在/page1进行过在线的客户中有60%是20岁~30岁生活在大中城市的年轻人.得到分类后,就可以针对这一类客户的特点展开商务活动,提供有针对性的个性化的信息怎么写作.用于分类分析的方法有统计方法的贝叶斯分类、机器学习的判定树归纳分类、神经网络的后向传播分类、K-最临近分类、mbr、遗、粗糙集和模糊集等.

6.聚类分析(ClusteringAnalysis)

聚类分析不同于分类规则,其输入集是一组未标定的记录,也就是说,此时输入的记录还没有进行任何分类.其目的是根据一定的规则,合理地划分记录集合,并用显式或隐式的方法描述不同的类别.在电子商务中,通过聚类具有相似浏览行为的客户,可使经营者更多地了解客户,为客户提供更好的怎么写作.例如,一些客户在一个时间段内经常浏览“weddingcelebration”,经过分析可将这些客户聚类为一组,并可进一步得知这是一组即将结婚的客户,对他们的怎么写作就应该有别于其他的聚类客户,如“经理人员阶层组”、“学生阶层组”.这样,Web可自动给这个特定的顾客聚类发送新产品信息邮件,为这个顾客聚类动态地改变一个特殊的站点.在一定程度上满足客户的要求,这对客户和销售商来说更有意义.

四、Web数据挖掘技术在电子商务中的应用

1.挽留老顾客,挖掘潜在客户

通过Web挖掘,电子商务的经营者可以获知每位访问者的个人爱好,充分地了解客户的需要,根据每一类顾客的独特需求提供写作化的产品,并根据需求动态地向客户做页面推荐,调整Web页面,提高客户满意度,延长客户驻留的时间,最终达到留住客户的目的.通过挖掘Web日志记录,可以先对已经存在的访问者进行分类,然后从它的分类判断出某个新客户是否是潜在的客户.

2.制定产品营销策略,优化促销活动

通过对商品访问情况和销售情况进行挖掘,企业能够获取客户的访问规律,确定顾客消费的生命周期,根据市场的变化,针对不同的产品制定相应的营销策略.

Web数据挖掘其在电子商务中的应用参考属性评定
有关论文范文主题研究: 关于电子商务的论文范文数据库 大学生适用: 函授论文、研究生论文
相关参考文献下载数量: 60 写作解决问题: 写作资料
毕业论文开题报告: 论文模板、论文题目 职称论文适用: 核心期刊、职称评中级
所属大学生专业类别: 写作资料 论文题目推荐度: 最新题目

3.降低运营成本,提高企业竞争力

电子商务的经营者通过Web数据挖掘,可以得到可靠的市场反馈信息,认真分析顾客的将来行为,进行有针对性的电子商务营销活动;可以根据关心某产品的访问者的浏览模式来决定广告的位置,增加广告针对性,提高广告的投资回报率,从而降低运营成本,提高企业竞争力.

4.提高站点点击率,完善电子商务网站设计

通过挖掘客户的行为记录和反馈情况为站点设计者提供改进的依据,进一步优化网站组织结构以提高网站的点击率.比如利用关联规则的发现,可以针对不同客户动态调整站点结构,使客户访问的有关联的文件间的链接更直接,让客户容易地访问到想要的页面,就能给客户留下好的印象,增加下次访问的机率.

同时对网站上各种数据的统计分析有助于改进系统性能,增强系统安全性,并提供决策支持.

五、结束语

当今时代,电子商务的发展势头越来越强劲,面向电子商务的数据挖掘将是一个非常有前景的领域.但是,不可否认,在面向电子商务的数据挖掘中还存在很多急需解决的问题,比如:怎样将怎么写作器的日志数据转化成适合某种数据挖掘技术的数据格式;怎样解决分布性、异构性数据源的挖掘问题;如何控制整个Web上的知识发现过程等.