基于聚类的Web日志挖掘方法探析

点赞:10948 浏览:45401 近期更新时间:2024-03-06 作者:网友分享原创网站原创

[摘 要] 本文针对国内中小型电子商务网站怎么写作器数据较少的特点以及数据的物理意义,采用了一种将数据导入Excel数据库并利用连环聚类的方法来处理Web数据的方法,为中小型电子商务网站的决策分析提供了一种较为简单的方法.

[关 键 词 ] 聚类 Web日志挖掘 电子商务

一、引言

国内的中小型电子商务网站发展还很不健全,其浏览的用户不多、日志数据相对较少、从事后台数据分析的人员很少或没有.如何避免像大型电子商务网站一样采用大量算法来对数据进行预处理,而又能对日志数据进行挖掘,从而分析用户需求、向用户进行个性化推荐、改进网页设计是目前中小型电子商务开发商急需考虑的一个问题.

二、Web日志挖掘过程分析

Web日志挖掘通过分析和研究Web日志记录中的规律识别电子商务的潜在用户,提高对最终用户信息怎么写作的质量并改进Web怎么写作系统的性能和结构.

1.利用Excel数据库进行Web日志预处理.Web日志文件记录中存储的是用户访问站点信息的原始记录,在使用算法或工具对其分析之前,必须进行预处理.预处理过程是Web日志挖掘质量保证的关键,因为处理后的数据好坏、全面与否直接影响到数据挖掘的结果,进而对电子商务开发商的决策造成直接影响.特别是中小型电子商务网站,其数据相对较少,因此数据处理的准确性极为重要.

基于聚类的Web日志挖掘方法探析参考属性评定
有关论文范文主题研究: 电子商务网站相关论文范文 大学生适用: 电大毕业论文、专升本毕业论文
相关参考文献下载数量: 50 写作解决问题: 毕业论文怎么写
毕业论文开题报告: 文献综述、论文目录 职称论文适用: 杂志投稿、职称评中级
所属大学生专业类别: 毕业论文怎么写 论文题目推荐度: 最新题目

中小型电子商务网站由于浏览和交易人数少,可将数据直接导入Excel数据库,在Excel中进行数据净化、用户识别.同时,由于网站设计人员的知识架构、技术层次以及对所要设计的网站内容的了解程度的限制,很难建立一个完全反映网站逻辑信息、无重复内容网页的网站,必须进行一定程度的合并,从而将其分成能反映网站逻辑信息的同质类别.

2.连环聚类法在Web日志挖掘中的应用.聚类分析成功地应用于众多领域,在此主要是利用K-Means快速聚类算法对数据进行聚类分析,以识别用户样本不同的行为段.由于此算法的聚类结果有一定的缺陷,本文采取了连环聚类的方法来对样本数据进行聚类以弥补快速聚类算法的不足.

对于电子商务网站来说,一般都存在外部客户浏览网页的数据和内部管理人员浏览网页的数据两类.因此,首先对Web日志数据进行划分,分为内部系统和外部登录两部分样本数据可以减少日志挖掘的工作量,同时,分别对外部登录数据和内部系统数据进行聚类分析也有助于增加聚类结果的可靠性.其次,对数据进行连环聚类,也即对某些聚类效果不明显的聚类结果进行再次聚类,可以增加聚类结果的清晰度.

(1)外部登录数据连环聚类.快速聚类分析是对用户指定类别的大样本资料的逐步聚类分析.其缺陷在于不能像层次聚类那样对不同聚类类数产生一系列的聚类解,且聚类结果错误率较高.根据快速聚类分析存在的缺陷,可对外部登录样本数据进行两个阶段的聚类分析.


第一阶段聚类是首先根据数据矩阵的特点,将聚类数暂定为几类,经反复几次聚类,最终确定下聚类数.接着将聚类结果导入Excel数据库进行分析,可以发现,有些类别的数据极少,在聚类中,此类数据的误导性极大,因此必须将其隔离;而对于一些表现出了相当不同的行为特点的类别,可以将其保留,待第二阶段聚类结束后,与其结果一并归入Excel数据库进行分析;对于第三种由于类内差异较大,但是数据又比较多且较重要的类别,接着对其数据进行第二阶段聚类,进而获得更为明确的聚类结果.将两阶段的聚类结果导入Excel数据库分析整合,可以得到一个较为明确的聚类结果.如:

某一类用户仅仅在网站上浏览了几个网页,一般称为偶然用户.对于这类用户,显然不可能从中得到一个有用的、潜在的访问模式来,因为他们对网站的访问具有很大的偶然性,对具体网页的访问也有着很大的随机性,所以如果从这些用户的访问条目中来提取用户的访问模式显然是不具有典型性和代表性的,而这种访问模式对电子商务的具体应用也就不具有任何指导性.另一类用户主要浏览某一网页组,对这一网页组浏览次数较多,而对其他网页很少涉及,几乎不浏览,可以判定此类用户是该网站某一类网页的长期用户.第三类用户为多主题行为的用户,即经常浏览网站上的各个网页组.与好奇用户(出于对网页内容的好奇而对每个网页组的网页都有浏览,但浏览次数不多且不重复)不同,多主题行为用户的浏览次数较多,因此可能就带有一定的商业倾向,电子商务开发商可以对该类用户特征加以分析,进行运用.

当然用户类别可能不止此几种,但都可以根据他们的浏览内容得出结果并用于电子商务决策.将直接聚类结果与连环聚类结果比较,可以证明连环聚类较好的弥补了快速聚类算法的缺陷,是比较有效的.

(2)内部系统数据聚类.内部系统的登录人员主要是网站内部工作人员,目的是对网站进行管理.如:如果聚类后分析发现某报障系统网页组的登陆率极高,那么,就能够尽快找出故障所在,及时排除故障,提高网站运营效率.

对于一个电子商务网站,通过外部登录数据连环聚类得到相似性用户访问的聚类簇,能够为电子商务开发商提供详细的用户反馈,帮助他们根据实际用户的浏览情况,调整网站的网页链接结构和网页内容,对网站进行优化,从而延长用户的驻留时间、挽留老用户、吸引新用户,并增加用户的购写率,以此获得电子商务网站的成功运行;而通过内部系统数据聚类,也可以明确网站运营的缺陷在哪里,从而加以改进.

三、结论

对于国内中小型电子商务网站来说,Web日志挖掘结果对电子商务网站的发展起着至关重要的作用.基于Excel数据库和连环聚类的Web日志挖掘法具有成本小、简单、易操作等特点,对规模不大、资金实力不强的网站发展具有重大的意义.