专业学术期刊网站附加数据抽取

点赞:20856 浏览:94055 近期更新时间:2024-02-12 作者:网友分享原创网站原创

摘 要:探讨了如何对专业学术期刊网站的附加数据库进行半自动化抽取.文章以10本国际知名生物医学期刊作为分析对象,确认了学术期刊网站附加数据抽取的必要性和可行性.并提出了这些期刊网站附加数据的关键字段及组合规律,逐步讨论如何将网站附加数据抽取到本地的过程.


关 键 词:附加数据数据抽取专业学术期刊网站

中图分类号:TP39文献标识码:A文章编号:1007-3973(2010)04-055-02

1引言

专业学术期刊以文献形式发表研究成果时,需要通过不同的途径来公布这些研究的数据,其中文献的补充材料是最普遍的方式.充分有效的利用这些资源,进行研究实验以促进行业的发展,显得非常必要.如何将附加数据与其相关信息抽取出来,转换为统一的格式,并最终加载到本地数据库供用户访问,成为亟待解决的问题.

本文探讨以数据仓库技术中常用的ETL工具解决生物医学专业学术期刊网站附加数据的收集整理问题,通过数据抽取,将附加数据从网站抽取到本地.

2需求及可行性分析

Web生物学信息的抽取一直是计算机领域的技术难点,各数据源网页自治和半结构化的原因,排序不固定等,都向传统的自动识别抽取技术提出了挑战.

通过分析显示,绝大多数的期刊附加数据以电子格式发布在期刊网站的文献归档中,对10本国际知名生物医学期刊进行的调查,初步总结了附加数据的发布规律,如表1所示:

表1附加数据规律分析

附加数据主要有以下特点:⑴层次性:多数期刊的文献归档具有层次性,依次访问归档入口、年归档、卷期归档和附加数据归档(或全文),便可到达附加数据的链接,少数期刊不具有层次性,⑵标记语言:期刊归档网页的标记语言为HTML或XML,⑶关 键 词:在卷期归档或全文页面中,可以找到链接到附加数据归档的附加数据关 键 词,但每种杂志的关 键 词不同,⑷分散性:附加数据与文献对应,由所属期刊维护,造成网页排版和数据形式多样,⑸时间限制:附加数据大多只能在一段时间内访问.

上述特点得出,一个成熟的附加数据自动抽取模块应具有以下功能及特点:

⑴提供交互式的操作界面,实现“半自动化”的抽取,

⑵提供归档查询的功能,根据用户的选择,可从期刊的文献中解析出附加数据的URL,

⑶提供附加数据页面浏览功能,辅助用户筛选URL,

⑷可进行下载控制,将数据存储至本地,

⑸可获取附加数据对应的文摘信息,

⑹为以后数据导入主题数据库提供支持,

⑺将所有查询、浏览、筛选、下载等操作以工程项目的形式串联在一起,进行规范化管理,

3具体实现方法

程序半自动化抽取而实现从互联网自动下载数据,其中系统流程是设计的核心,我将其划分为URL解析、文摘信息获取和用户判断三个重要部分,各部分间有着紧密的关联.

3.1URL解析

附加数据的层次性、标记语言和关 键 词等优势,可为编程人员所利用.根据手动下载的经验,页面链接一条记录一般包含多个字段,分别为如下含义:

专业学术期刊网站附加数据抽取参考属性评定
有关论文范文主题研究: 关于学术期刊的论文范文 大学生适用: 函授毕业论文、函授毕业论文
相关参考文献下载数量: 51 写作解决问题: 怎么撰写
毕业论文开题报告: 标准论文格式、论文摘要 职称论文适用: 刊物发表、职称评中级
所属大学生专业类别: 怎么撰写 论文题目推荐度: 优质选题

jouranlID:(4位流水号,每本期刊分配一个不变的id),

jouranlArchiveURL:(期刊文章存档URL),

yearURL:(期刊按年份归档的页面URL,含正则表达式),

volumeURL:(期刊每卷的URL,含通配符,可以匹配期刊每卷的URL),

dataURL:(附加数据的URL,含正则表达式的字符串,用以匹配下载数据的URL),

keywords:(此期刊附加数据的关键字,可以是多个,并含正则表达式,以逗号隔开),

可通过以下步骤到达附加数据的下载页面:

⑴提供期刊Archive地址,作为程序的入口,⑵进入期刊按年份排列的归档页面,解析出所有的年份,⑶进入某一年份按卷期排列的归档页面,解析出所有的卷期,⑷进入某卷期的文章列表页面,解析出所有的文章标题,若没有附加数据关 键 词,进行第⑸步,否则跳至第⑹步,⑸查看全文,⑹寻找关键字,⑺进入附加数据的归档页面,⑻将附加数据的URL列表返回给用户.

3.2文摘信息获取

除解析URL以外,获取附加数据对应的文章信息也是不可缺少的部分,它直接影响到数据管理和工程导出等操作.本部分主要包括以下步骤:

⑴与3.1节的第⑷步联系起来,进入某卷期的文章列表页面,⑵解析出卷号、期号及文章标题,⑶调用PubMed提供的API,下载相应卷期的PubMedXML文件,⑷将文章标题与XML文件中的标准题目相匹配,⑸根据匹配的正确标题,返回相应的文摘信息,⑹将文摘信息与附加数据相对应.

3.3用户判断

这一部分是ETL技术中抽取和转换的有机结合,这是因为归档网页中存在着数据更新、链接错误和多重链接等情况,目前的编程水平还无法针对所有期刊提出统一的解决方案,所以在抽取过程中引入人工判断是十分必要的.

在附加数据下载页面中,存在多种形式的URL,抽取程序可以将它们从源文件中解析出来,但无法判断哪些才是真正的附加数据URL.因此,我们根据手动下载的经验,将URL分为5个级别,辅助用户进行判断:以常见文件扩展名结尾的URL多数需要下载,2级“DC”+num+“/”+num结尾的URL多数需要下载,3级文章提供附加数据下载链接的页面自身取决于是否有页面数据与数据描述,4级由本期刊网站维护的URL(参考性页面)仅少量需要下载,5级由非本期刊网站维护的URL(参考性页面)极少量需要下载.

对于附加数据URL分级策略,有以下几点需要注意:

⑴在工程管理区的数据记录中,Level项表示附加数据URL级别,

⑵第3级的URL将自动显示在查询结果中,若此类页面存在用标记语言实现的数据或重要数据描述,则需添加至工程,

⑶第1、2级的URL多数需要添加至工程,

⑷注意:文献的全文(.pdf)属于第URL,但不需要下载,

⑸第4、5级的URL仅少量需要下载,若本文数据确实由这些网页提供,则需要下载,

⑹某些期刊要经过多级链接才能获得真正的附加数据URL.

本部分主要包括以下步骤:

⑴与3.1节的第⑺步联系起来,首先将附加数据URL列表返回给用户,⑵用户根据事先制定好的规则,浏览网页,筛选URL列表,⑶将筛选好的URL列表添加至当前工程项目,即添加到下载队列,⑷下载数据,下载任务在杂志内串行,杂志间可并行,⑸将附加数据存放到本地,⑹与3.2节的第⑸步联系,将附加数据与文摘信息对应,⑺导出附加数据存放目录及数据信息表,最终导入数据库.

4结语

学术期刊网站附加数据抽取,是ETL工具对附加数据的应用,能为主题数据库提供更多的资源,其次,数据内容是统计分析的重要资源,而附加数据描述可作为文本挖掘的研究对象,为挖掘隐含知识提供支持,若能根据这两个方面的研究成果,扩充附加数据抽取的功能,就能成为具有自动分类和文本挖掘功能的综合软件.最后,以上述技术为背景,可逐步实现包含分类系统的附加数据主题数据库,为行业的发展提供强大的支持.

注释:

SantosC,BlakeJ,StatesDJ.Supplementarydataneedtobekeptinpublicrepositories[J].Nature.2005,438(8).

周茂伟,邓苏,黄宏斌.基于元数据的ETL工具设计与实现[J].科学技术与工程,2006,6(21).

黄利辉.文本挖掘在生物学中的应用[J].医学信息学杂志,2006,27(3).

成瑜,何洁月.基于本体的生物信息数据源的发现[J].微机发展,2005,15(1).

张宁,贾自艳,史忠植.数据仓库中ETL技术的研究[J].计算机工程与应用,2002,38(24).

王斯锋,史波.XML技术综述[J].科技信息(科技教育版),2006(4).

PubMed网站[DB]..ncbi.nlm.nih.gov/pubmed/.

周源远,王继成,郑刚,张福炎.Web页面清洗技术的研究与实现[J].计算机工程,2002,9(50).

NagarajanR,AhmedM,PhatakA.DatabaseChallengesintheIntegrationofBiomedicalDataSets[J].Procofthe30thVLDBConf,2004.