基于XML的Web数据挖掘集成应用

点赞:3461 浏览:8830 近期更新时间:2024-01-27 作者:网友分享原创网站原创

[摘 要 ] 针对目前企业实施Web数据挖掘的关键问题,提出利用XML屏蔽Web数据源的异构性以及XML与Web挖掘技术在电子商务系统中集成应用的解决方案,并对用分类技术发现潜在客户群等应用进行了讨论.


[关 键 词 ] XML Web数据挖掘 电子商务系统

一、数据挖掘与XML

数据挖掘就是从大量随机的实际应用数据中,通过数据抽取、转换、分析和其他模型化处理,提取隐含在其中的有用信息和知识的过程.Web数据挖掘过程可粗略地分为数据准备、数据挖掘、结果的解释评估三个阶段,其中每一个阶段又包含若干个子阶段(参见图1).

图1 数据挖掘过程的一般步骤

XML(eXtensible Markup Language)是一种跨平台可扩展的数据描述语言,它是标准通用标记语言SGML的一个简化子集,但克服了SGML的复杂性,将SGML的丰富功能与HTML的易用性结合起来,具有较强的描述数据和管理数据的能力,并凭借其良好的可扩展性和自描述性、形式与内容分离、对多语种支持等特点,给跨平台跨地域异构数据的集成带来方便.XML的这种特性为处理电子商务系统中大量的异构数据提供了可行性.

二、实施Web数据挖掘的关键问题及解决方法

1.异构数据的转换

电子商务系统怎么写作器端的用户文件目前主要是XML、HTML和关系数据等数据类型.从数据处理角度来看,关系数据模型过于严谨,无法有效地表示半结构化和非结构化数据;HTML对文档的要求也过于完整,且不能定义数据的层次,没有提供编程接口解析它所携带的数据,无法真正实现各种应用程序、数据库及操作系统间的数据交互.XML与关系数据模型和HTML相比,可以表示更多样化的数据格式,能够使不同来源的结构化、非结构化数据很容易地进行合并.

采用XML集成多个不同数据源的信息,只需要把来自不同数据源的信息先转成XML文档,然后再处理经过解析器解析的数据流即可.任何应用程序只需要知道两种格式,即本身的和XML的,就可以通过XML为相似度检测实现与其他应用程序的信息交换.

因此,在Web挖掘的数据预处理阶段,用XML作为中间数据模型来屏蔽Web数据源的异构性不仅是可行的,而且可以使异构数据源能有效地集成应用,从而较好地解决Web挖掘中的技术难题.

2.XML数据的查询

XML描述的Web数据所具有的半结构化特性对传统的数据管理方式提出了挑战,由于XML文档数据具有特殊的树型层次结构,使得已有的数据查询技术(如传统的基于关系数据库方式的信息查询、基于文本的信息检索)不能很好地应用于XML数据的查询处理.本文采用文献提出的基于结构特征编码模式的XML数据查询算法―MatchSearch,能够有效地对经过上述转换和数据抽取所得的半结构化数据进行多路径查询.

MatchSearch算法是基于传统信息检索技术中的字符串匹配算法提出的,其重点是对查询语句的分支进行判断、处理.实际应用中借鉴MatchSearch算法的基本思想,采用三元编码模式,将XML文档中的每个数据成分(元素、属性、原子值)都用(name, path, branch)形式表示.其中,name表示数据成分的名称或值,path以压缩编码的形式表示从文档根节点到当前数据节点的父节点的路径,branch表示当前数据节点的子节点数.这种三元编码形式不仅可以表示数据的内容(由name表示),还可以有效地表示XML数据的结构(由path和 branch表示),因此可以将XML文档数据转换为等价的以三元编码模式表示的字符串形式.同理,基于路径的XML数据查询也可以表示成三元编码形式的字符串.这样,XML的数据查询问题就转化为三元编码形式的字符串匹配问题.

此外,借鉴MatchSearch算法的基本思想,还可以利用三元编码模式设计一种双层的B+树索引结构,将路径索引和数值索引合为一体,能够进一步提高索引的查询速度.通过与有代表性的查询优化方法的对比实验,表明该方法能够有效地提高针对半结构化数据的多路径查询速度.

三、面向电子商务XML文档的Web挖掘应用

电子商务网站上的异构数据经过转换为XML格式处理后,就可选用相应的Web挖掘技术对数据集实施挖掘分析.

1.基于XML的Web挖掘集成应用模型

由于Web上的电子商务信息多而杂,并且大多是非结构化或半结构化的,这就使得Web挖掘对数据的预处理过程要比普通的数据挖掘更为复杂,工作难度也更大.为此,笔者提出了一个基于XML的Web数据挖掘集成应用模型(如图1所示).

基于XML的Web数据挖掘集成应用参考属性评定
有关论文范文主题研究: 关于电子商务系统的论文范文集 大学生适用: 学年论文、在职研究生论文
相关参考文献下载数量: 100 写作解决问题: 写作资料
毕业论文开题报告: 文献综述、论文目录 职称论文适用: 职称评定、初级职称
所属大学生专业类别: 写作资料 论文题目推荐度: 免费选题

图2基于XML的Web数据挖掘应用模型

该模型给出了基于电子商务怎么写作器端数据实施Web数据挖掘集成应用的基本思想和一般流程:将实现HTML文档、关系数据向XML格式转换的工具封装为XML转换器,将路径分析、分类技术等Web数据挖掘技术封装为Web数据挖掘器,并与处理XML的Ja应用编程接口(Ja API for XML processing)等模块集成,以中间件的形式植入电子商务系统解决实际应用问题.

需要说明的是,目前Web数据挖掘的过程并非完全自动的,上述应用模型中有许多细节工作仍需要人工完成.

2.利用分类技术发现潜在客户群体

分类是一种数据分析形式,可以用来抽取描述重要数据集合的模型,一般用于预测数据对象的离散类别.在电子商务系统中应用分类技术,可以通过挖掘客户群体中某些共同的特性而将客户分成不同的类别,建立不同种类客户之间的特征分类模型,进而预测不同行为类别客户的分布特征.

对一个电子商务网站来说,从众多的访问者中发现潜在客户群体非常关键.那么,如何通过Web挖掘来发现潜在客户群体呢?可以应用分类规则挖掘中的主要方法,如决策树分类技术,先对客户通过Web日志文件的处理和分类规则挖掘,识别出其各类的公共属性,然后对一个新的客户,依据分类规则进行预测,确定是否为潜在的客户.如果发现某些访问者为潜在客户,就可以对这类客户实施一定的策略,使他们尽快成为在册客户,从而使电子商务网站的订单数增多,效益增加.

四、结束语

研究表明,数据挖掘工作60%的时间用在数据准备上.这一方面说明数据挖掘技术对数据要求的严格,但同时也启示我们:如果能减少在数据准备阶段的工作量,也就意味着可以有效地减少整个数据挖掘过程的工作量.本文所提出的基于XML的Web数据预处理方法被实际应用证实是一种有效的方法.