基于快速构建模板的购物信息抽取方法

点赞:26576 浏览:120328 近期更新时间:2024-04-06 作者:网友分享原创网站原创

摘 要:针对由模板生成的购物信息网页,且根据其网页信息量大,网页结构复杂的特点,提出了一种不使用复杂的学习规则,而将购物信息从模板网页中抽取出来的方法.研究内容包括定义网页模板和网页的信息抽取模板,设计用于快速构建模板的模板语言,并提出一种基于模板语言抽取内容的模型.实验结果表明,在标准的450个网页的测试集下,所提方法的召回率相比抽取问题算法(EXALG)提高了12%;在250个网页的测试集下,召回率相比基于视觉信息和标签结构的包装器生成器(ViNTs)方法和增加自动信息抽取和视觉感知(ViPER)方法分别提升了7.4%,0.2%;准确率相比ViNTs方法和ViPER方法分别提升了5.2%,0.2%.基于快速构建模板的信息抽取方法的召回率和准确率都有很大提升,使得购物信息检索和购物比价系统中的网页分析的准确性和信息召回率得到很大的改进.

关 键 词:模板;电子商务;信息抽取;购物信息;商品

中图分类号:TP391.3;TP18

文献标志码:A

Abstract:

ConcerningtheshoppinginformationWebpageconstructedbytemplate,andthelargenumberofWebinformationandplexWebstructure,thispaperstudiedhowtoextracttheshoppinginformationfromtheWebpagetemplatebynotusingtheplexlearningrule.ThepaperdefinedtheWebpagetemplateandtheextractiontemplateofWebpageanddesignedtemplatelanguagethatwasusedtoconstructthetemplate.Thispaperalsogeamodelofextractionbasedontemplate.Theexperimentalresultsshowthattherecallrateoftheproposedmethodis12%higherthantheExtractionproblemAlgorithm(EXALG)bytestingthestandard450Webpages;theresultsalsoshowthattherecallrateofthiethodis7.4%higherthanVisualinformationandTagstructurebasedwrappergenerator(ViNTs)methodand0.2%higherthanAugmentingautomaticinformationextractionwithvisualperceptions(ViPER)methodandtheaccuracyrateofthiethodis5.2%higherthanViNTethodand0.2%higherthanViPERmethodbytestingthestandard250Webpages.TherecallrateandtheaccuracyrateoftheextractionmethodbasedontherapidconstructiontemplateareimprovedalotwhichmakestheaccuracyoftheWebpageanalysisandtherecallrateoftheinformationintheshoppinginformationretrievalandtheshoppingparisonsystemimprovealot.

Keywords:template;electronicmerce;informationextraction;shoppinginformation;goods

0引言

随着互联网的快速发展,网页以爆炸式速度持续增长,为了应对网页数据的动态增长,搜索引擎公司和互联网企业和学者们提出了很多的网页分析方法,以获取更多准确的网页数据.网页信息的格式呈现异构性,为了将自然文本、半结构化的信息转化成结构化的信息进行存储,学者们提出了很多的方法,主要有基于模板的、基于本体域的、基于文档对象模型(DocumentObjectModel,DOM)树的、基于机器学习的信息抽取方法.万维网(WorldWideWeb,WWW)文档信息抽取主要是从半结构化的或无结构化的网页数据中抽取出感兴趣的数据,并将数据存储在传统数据库中[1-2].信息抽取系统的主要功能是从文本中抽取出特定的事实信息[3].随着电子商务的发展,购物网站在各行各业兴起,购物网站信息也增多,为了集成各大电子商务网站的信息,方便用户检索以及进行购物比价,对购物信息(商品标题、、图片等)的抽取变得尤其重要.

现在除了一些购物比价系统,搜索引擎也开始收录购物网站信息,用于购物搜索,不管是购物比价系统还是购物搜索,都需要商品的信息,其网页信息通过爬虫抓取,通过网页分析来获得具体的商品数据;这些通过网页分析得到的购物数据可以用于网页排序、网页索引以及比价推荐系统中,在网页分析中网页信息抽取是一个核心的功能.为了从各大电子商务网站中,将与商品相关的数据从网页中准确快速地提取出来,主要做了如下工作:

基于快速构建模板的购物信息抽取方法参考属性评定
有关论文范文主题研究: 关于电子商务网站的论文范文素材 大学生适用: 学院学士论文、高校大学论文
相关参考文献下载数量: 100 写作解决问题: 如何怎么撰写
毕业论文开题报告: 论文任务书、论文设计 职称论文适用: 杂志投稿、中级职称
所属大学生专业类别: 如何怎么撰写 论文题目推荐度: 优秀选题

1)定义了网页模板和网页信息抽取模板,给出了模板的模型,为基于快速构建模板的信息抽取模型的构建提供了依据.

2)构建了基于模板的信息抽取的模型,在网页模板和网页信息抽取模板的基础上构建了基于模板的信息抽取模型,呈现了基于模板的购物信息抽取的流程.

3)设计并实现了模板语言.这套模板定义语言、模板搜索定位语言、模板操作语言,是整个购物信息抽取的核心,为所有购物站点的购物信息抽取成为可能.

4)在测试集下进行实验,验证了基于快速构建模板的购物信息抽取方法的高效和准确性.

1相关研究

1.1国内外研究现状

在网页的文本信息抽取领域,出现了很多的方法,这些方法可以根据研究的侧重点不同分为不同的类型.根据抽取的对象,可以分为自由文本的信息抽取方法和通过模板生成的结构化文本信息抽取方法;针对结构化文本信息抽取方法,又可以分为列表页的信息抽取方法和详情页信息抽取方法;根据抽取的自动化程度,可以把信息抽取方法分为手动信息抽取方法、半自动化信息抽取方法和自动化信息抽取方法;根据抽取的复杂程度,可以把信息抽取方法分为简单的信息抽取方法和嵌套的信息抽取方法;根据抽取的级别不同,可以把这些信息抽取方法分为字段信息抽取方法和记录信息抽取方法.

耿焕同等[4]针对动态生成的网页提出了一种基于视觉分块的信息抽取方法.该方法是通过去除文本的突显效果标签,而留下文本标签(如〈TD〉,〈FONT〉等)构建视觉树,然后确定视觉块,生成抽取的扩展标记语言路径(XMLPathLanguage,XPATH).这种方法适用于数据域比较大的信息抽取(如新闻正文),而且它把网页的每个数据块都抽取出来,这对只需要商品信息的信息抽取不适用.基于本体的信息抽取方法[5-6],本体的构建比较困难繁琐,而且是针对像招聘广告这类的数据域明显的无结构化文本.刘云中等[7]提出的基于隐马尔可夫模型的文本信息抽取方法模型的构建比较麻烦,一旦网页结构发生变化,需要重新对网页进行训练,会严重影响信息抽取的性能与效率.文献[8-14]也对信息抽取方法进行了相应的研究.目前使用最广泛的是基于模板的信息抽取方法,通过模板构建抽取规则,然后通过解析模板来对网页数据进行抽取.

1.2与现有研究的不同

已有的研究大部分都是针对自然文本中的信息抽取,包括实体和关系的抽取,其中命名实体识别是研究的重点,这些信息抽取方法对于电子商务信息网站Web信息的抽取不适用.对于Web信息的抽取有些研究也只是针对单个数据域的抽取,不是一整条数据的或一个记录的信息抽取,如新闻主题的信息抽取是当个数据域的抽取,而电子商务网站数据的抽取必须将整条商品数据以及与商品相关的数据的抽取同时抽取出来保存到一个实体中.现在各大电子商务网页一般都是通过模板生成的,针对这种通过模板动态生成的网页信息,提出了一种快速构建模板的方法来对购物信息抽取,以用于购物搜索引擎或比价推荐系统中,这种方法主要是通过定义一套定位查询,以及拷贝等操作语言来快速构建抽取模板,来定义抽取规则.快速构建模板的方法与杨少化等[15]提出的自动化检测模板的信息抽取方法相比,由于快速构建模板方法先将文本分块,将要抽取的数据定位到一个唯一的区域,这使得信息抽取在准确率方面有一定的提升.在面对一些经常变化的信息,评论数信息,这些数据经常会通过客户端脚本语言(Jascript,JS)或异步客户端脚本和可扩展标记语言(AsynchronousJaScriptandXML,AJAX)加载,面对这些数据如果能找到其对应的全球资源(UniformResourceLocation,URL),那么也可以通过模板的配置将这些数据提取出来,这在数据召回方面无疑是很大的提升.另外提出的定位语言和操作语言具有较好的可扩展性,适用于购物信息抽取.

2模板定义

2.1网页模板

电子商务网站的商品列表页或详情页都是通过从数据库动态获取数据,将页面填充得到的,这些填充数据的页面一般称之为网页模板,将网页模板定义为web_template等于TUAUC.

T即标签(Tag),为超文本标记语言(HypertextMakeupLanguage,HTML)标签,一个Web文档的简易DOM树结构如图1所示.

实验中:字段召回率是指单个字段提取的召回率,比如商品名称提取的召回率;字段准确率是指单个字段提取的准确率;记录召回率记录召回率在哪个表格的列中,请明确.是指一个商品的所有信息抽取的召回率,包括商品的名称、、评论数等所有字段召回率的平均值.通过实验可以发现,基于快速构建模板的信息抽取方法在召回率和准确率方面都优于EXALG、ViNTs和ViPER方法.

针对淘宝的20个商品网页进行了信息抽取,其中准确率达到80.82%;对京东的20个商品网页进行信息抽取实验,准确率达到71.25%;对亚马逊的20个商品网页进行信息抽取实验,准确率达到86.94%.

7结语

针对电子商务网站的特点以及当前信息抽取方法不足,提出了基于快速构建模板的信息抽取方法.这里的快速主要是通过自定义的定位与操作的语言进行快速的文本定位以及数据抽取,语言简洁而且容易理解,能够迅速完成对数据域的抽取.通过实验表明这种方法在数据抽取的查全率和查准率方面都有较好的效果.针对网页模板发生变化的情况,采用自动监控机制,能及时发现模板改版并及时构建新的抽取模板.但是存在的不足是在构建模板的时候还需要人工的干预,而且针对AJAX格式的网页数据无法抽取.以后的工作中研究的重点将集中在模板的自动化识别和构建上.