对学术文献引用网络信息的反思

点赞:3577 浏览:8907 近期更新时间:2024-03-01 作者:网友分享原创网站原创

[摘 要]以《中国图书馆学报》1995至2008年所载论文引用的网络信息为样本,利用网络计量学方法,就“linkrot”的发生率及其与时间因素的关系进行统计和分析,从而证实网络学术信息存在“linkrot”现象.最后,提出应建立一套被引网络学术信息的长期保存机制来解决因“linkrot”而造成的人类记忆缺失.

[关 键 词]学术文献 网络信息 linkrot

[分类号]G203

随着网络信息量的激增和网络应用的普及,学术文献中引用的网络信息数量日益增多.然而,这些信息的内容变化甚至消逝(即“linkrot”现象)成为阻碍人们再现研究过程、继承既有成果和实现创新的障碍.本文在综述研究现状的基础上,以《中国图书馆学报》为例,客观地反映我国学术期刊所引网络信息的“linkrot”现象,以此呼吁社会关注和解决这一问题.

1 研究现状

“linkrot”不仅影响网络信息的获取和利用,更重要的是它会造成人类记忆的缺失.因此,自20世纪90年代中期至今,国外进行了大量研究.

1.1 国外研究现状

1.1.1 一般网络信息“linkrot”现象的研究GUY在1997年4月的调查显示,59.65%的用户认为“brokenlinks”严重影响他们对互联网的使用;次年,JakobNielsen(1998)注意到,“brokenlinks”的比例比1997年的6%几乎增加了1倍,因而指出要高度重视“linkrot”现象;此后,许多学者对“linkrot”进行了研究,最有代表性的是WallaceKoehler.Koehler在1999年和2002年的研究中发现在6个月和1年内发生过变化的网站分别占97%和超过99%,而网页则达到98.3%和99.1%;同时,有一半的网络信息会在2年内消失.在近7年跟踪研究的基础上Koehler总结出两个结论:其一,“linkrot”与网络信息的存续时间相关,尽管约2/3的URL在4年内失效,但随后却相当稳定;其二,信息类型、学科属性和所属域名与“linkrot”相关.

1.1.2 网络学术信息“linkrot”现象的研究StephenP.Harter和HakJoonKim(1996)是最早关注网络学术信息“linkrot”现象的学者.他们从74种同行评议电子期刊发表的279篇文献中提取到83条被引网络信息,但能访问到的只有43个,占51.8%.他们因此对引用网上学术信息的合理性提出质疑.此后,许多学者对学术数字资源所含URL进行了研究,代表性研究有:Bar-Ilan和Pentz(1999)、JohnMarkwell和Didw.Brooks(2002)、SteveLawrence等(2001)、CarmineSellitto(2005).

还有一些研究描述了纸质期刊文献所引网络信息的“linkrot”状况,典型研究包括:CarolAnneGemain(2000)对随机抽取的31篇文献中引用的64个URL进行了为期三年的观察,1997至1999年无法访问的比例分别占26.5%、37.5%、48.4%.MaryK.Taylor和DianeHudson(2000)对College&ResearchLibraryNews的“InterResource”栏目所列482个URL跟踪研究9个月,发现“linkrot”比例从13.3%上升到22.2%,时间、域名、所有者等因素可能与此有关;此后,Didc.Tyler和BethMcNeil(2003)、MaryF.Casserly和JamesE.Bird(2003)、EvangelosEvangelou等(2005)、DionHoe-LianGoh和PengKinNg(2006)也对纸质期刊文献所引网络信息的“linkrot”现象进行了不同的研究.

除上述成果,比较有代表性的研究还有DonnaBergmark(2000)、Diomidisspinellis(2003)、FrankMcCown等(2005)、JoseLuisOrtega等(2006)、DominikAronsky等(2007)、DanielaV.Dimitova和MichaelBugeja(2007)、MatthewE.Falagas等(2007)、AilsaParker(2007)、EdmundRussell和JenniferKane(2008).

1.1.3 “linkrot”问题的对策研究

目前,深入探讨“linkrot”应对策略的研究不多,专门针对网络学术信息的就更少.依据解决方式,现有解决方案分为三类:一是依靠网络工具(主要指软件)及时发现“brokenlinks”,或依据信息的状态向用户预警.譬如,WE-Gauge、DyingLink、LinkWalker、Xenu’sLinkSleuth、Checkbot、LinkAlarm;二是以档案方式长期保存网络信息,譬如,WaybackMachine、Google和百度的CachedPages、NECI的Intermemory项目、斯坦福大学的LOCKSS系统;三是依靠分散于各处的信息碎片重建,譬如,Opal、Warrick系统.

为应对网络信息URL的频繁变化提出了DOI和URN,基于此的系统相继出现,譬如DOI-X、PURL、Hartdie.DOI和URN能解决由于URL变动而产生的“linkrot”,但对删除造成的“linkrot”无能为力.

1.2 国内研究现状

国内2008年才出现专门研究“linkrot”现象的文献,比较有代表性的成果包括:笔者(2008)为揭示中国网络信息的稳定程度,对随机获取的10万个有效URL跟踪观测近4个月.发现“linkrot”的比例在1.535%至4.724%之间波动,41.36%的样本内容发生了变化,8.99%的更新周期小于3天;吴志强(2009)对1999年至2003年《软件学报》、《中国图书馆学报》所载文献引用的1637个URL的研究发现,“linkrot”的比例超过47.34%,该现象与域名、访问协议、文件类型相关.

2 实证研究

2.1 研究方法

2.1.1 样本选择 参考文献著录的规范程度直接影响研究结果,鉴于绝大多数图书馆学研究者对学术文献的引用和参考文献的著录极其规范,所以,本研究直接将样本锁定在图书馆学领域.基于论文的内容质量和形式的规范程度,本研究确定以1995至2008年《中国图书馆学报》所载论文引用的网络信息为样本.

2.1.2 研究步骤 具体如下:

查阅《中国图书馆学报》1995至2008年各期所刊文献,记录每篇文献的收稿时间、所引网络信息的链接;

逐一访问上述URL,记录访问时间、异常响应代码或信息;

统计llnkrot发生率及异常响应类型;

分析linkmt与时间因素的关系.

2.2 数据和结果

2.2.1 Linkrot发生率统计 以异常响应数与引用的网络信息量之比计算Linkrot的发生率,结果如表1所示:

2.2.2 异常响应类型统计 本研究统计到的异常响应代码包括301、400、401、403、404、410、500,分别代表被请求的资源已永久移动到新位置;由于包含语法错误,当前请求无法被怎么写作器理解;当前请求需要用户验证;怎么写作器已经理解请求,但是拒绝执行它;请求所希望得到的资源未被在怎么写作器上发现;被请求的资源在怎么写作器上已经不再可用,而且没有任何已知的转发地址;怎么写作器遇到了一个未曾预料的状况,导致了它无法完成对请求的处理.另有9个URL未提供具体的异常响应代码和说明,空白页、“数据库连接错误”、“MultipleChoices”、“网站正在维护”各1项,上述13项归入表2的其他项:

2.2.3 Linkrot与时间因素的关系分析 1997年至2008年,《中国图书馆学报》所载论文中有491篇引用了网络信息.其中,13篇由于未提供具体的投稿时间,无法计算URL的访问时间与投稿时间之差,因而从数据中剔除.描述各年刊载的论文所引网络信息Linkrot的发生率和各篇论文所引网络信息Linkrot的发生率,如图1、图2所示:

2.3 讨论

表1显示,自1997年至今,《中国图书馆学报》所刊论文引用的2160条网络信息中已有1043条无法访问,占总数的48.29%.该数据尚不包括URL访问响应正常,但内容已发生变化的情况.如将内容变化考虑在内,根据Koehler等人以及笔者以往的研究,网络信息的Linkrot发生率将超过70%.仅凭这一个数据,足以指出目前的互联网绝非理想的学术信息源.

为进一步揭示Linkrot现象的成因,笔者对异常响应代码进行了分类统计.表2显示,“404”错误占79%;其次是“500”错误,占14%.

图1的数据点呈现出Linkrot发生率随时间逐渐升高的趋势,但对每篇论文的分析结果仅部分地支持该结论.统计表明,2005年至2008年所刊论文中,超过23%的论文所引网络信息已经全部无法访问,但也有近21%的论文所引网络信息的Linkrot发生率为0.将统计范围扩大至所有样本,这两个数据分别为53%和20%.结合图2数据点的分布,似乎能够归纳出两点结论:其一,网络信息的Linkrot发生率确与时间有关;其二,网络信息Linkrot现象的发生不是匀速的,前2年出现的机率较大,此后递减,直至趋于稳定.


上述结果与国外研究者所得到的结论基本一致.当然,由于时间、人力等因素的制约,本研究仅包括《中国图书馆学报》1995年至今的数据,尚不具备将研究结论推广到所有学科领域的条件.

3 结语

一边是学术参考信息源要求具有稳定性和可获得性,而另一边却是网络学术信息广泛存在的“linkrot”现象.那么,应该把网络信息作为学术参考信息源吗事实上,学术文献中日益增多的网络信息引用已不容我们去讨论将网络作为学术参考信息源的合理性,而是考虑如何解决“linkrot”产生的问题.

目前,绝大多数研究者仍将这一问题的解决寄希望于网络信息的长期保存.但是,网络信息分布分散、变化迅速、数量巨大成为长期保存策略难以实现的障碍.笔者认为,详尽无遗地发现和保存所有网络学术信息既没必要,也无可能.既然要解决的是引文网络中的“linkrot”,我们只需要实现被引网络信息的长期保存.因此,通过合理利用编辑部和图书馆的资源,建立一套行之有效的被引网络信息的长期保存机制,是保存学术成果、促进学术交流的当务之急.

对学术文献引用网络信息的反思参考属性评定
有关论文范文主题研究: 关于网络信息的文章 大学生适用: 硕士学位论文、硕士毕业论文
相关参考文献下载数量: 75 写作解决问题: 如何怎么撰写
毕业论文开题报告: 论文提纲、论文小结 职称论文适用: 论文发表、初级职称
所属大学生专业类别: 如何怎么撰写 论文题目推荐度: 免费选题