国内链接的计量

点赞:6979 浏览:29596 近期更新时间:2024-02-09 作者:网友分享原创网站原创

[摘 要]链接分析是近些年来信息计量学研究的一个热点问题.以国内2000―2010年链接分析的部分研究成果为对象,运用词频统计、共词网络等方法对其进行计量分析.研究发现,国内链接分析研究目前主要集中在图书情报学和计算机科学领域.这两个领域的研究既有一些交叉的内容,也各自有一些学科特色鲜明的研究子主题.

[关 键 词]链接分析 计量分析 共词网络 合作网络

[分类号]G353.1

1 引言

链接分析源于对Web结构中超链接的多维分析.1996年,Larson在《万维网的文献计量:网络空间结构初探》一文中明确将信息技术从文献计量学移植到网络中.1997年,Almind和Ingwersen提出了“网络计量学(webometrics)”一词,旨在定量分析网络现象.此后,链接分析便成了网络计量学的主要研究内容之一.

目前,国内一些学者对国外链接分析研究成果进行了文献计量分析.李江和殷之明在国内外相关文献调研的基础上,将国外链接分析研究归纳为四大视角;郑曦和邓中华、邱均平和矫翠翠都以WebofScience为数据源,对国外链接分析的文献进行了计量研究;董珏和李江、邓中华等分别对国内外链接分类和链接指标文献进行了综述.这些文献侧重于对国外链接分析研究的现状、存在的问题及其发展趋势的研究.本文主要通过国内链接分析成果的计量分析,梳理国内链接分析研究的现状和特点,同时对国内外链接分析的某些方面进行比较.

2 数据来源与研究方法

2.1 数据来源

本文以中国学术期刊全文数据库来源期刊为数据源,检索条件是题名或关 键 词当中包括“链接分析”,时间范围是2000―2010年.初次检索到346篇文献,经题名、关 键 词和摘 要信息分析后,最终确认270篇为本文的研究对象.

这些文献分布在四大类型学术期刊中,其中图书情报学和计算机科学刊物的发文量占总体的78%(见图1).结合表1的数据可以发现,这与邱均平等的研究相比,相同之处是研究成果的学科主要集中在图书情报学和计算机的两个学科;不同之处是国外研究成果在计算机科学期刊上发文较多,信息科学与图书馆相对较少,而国内的情况则正好相反.

从图2可看出,图书情报学刊物的发文量在2005年和2008年出现了两个高峰,发文数量仍处于上升趋势;而计算机科学刊物的发文量在2007年达到高峰,2008年之后呈现出下降趋势.从图3来看,国内链接文献期刊论文的数量自2001以来一直处于上升的趋势,而国外自2007年开始出现快速下滑趋势(国外数据采集自邱均平等的研究).

2.2 研究方法

王晓光提出,由文章关 键 词及其共现关系形成的网络可以称为“共词网络”,它是以“知识单元”――文章关 键 词为基础构建的一类特殊的知识网络.共词网络作为一种研究方法,不仅可以从微观层面揭示科学知识体系内的实体关系特征,还以其演化过程反映了科学概念和科学命题的增长规律.本文通过对国内链接分析文献的关 键 词共词网络分析来揭示其主题结构.为了进行对比研究,本文分别选取在图书情报学期刊和计算机科学期刊上发文的关 键 词构建两个共词网络.

共词网络通常是两两统计关 键 词在同一篇文献中出现的次数,它们形成一个共词矩阵,然后可以利用SPSS、Uei等软件处理成不同的图形.这种方法一般只处理高频关 键 词,而且数据统计要自行编制统计软件,如马费成等的研究.本文采用相关文献的所有关 键 词来构建一个共词网络图,数据处理的方法与国内目前普遍采用的共词分析方法相比,有一定差异.

下面以《图书情报工作》三篇研究链接分析的文献的关 键 词为例,对两种共词网络图的构建方法进行比较分析.

文献1:科研合作网络链接分析社会网络分析共现分析

文献2:BSI博客链接索引链接分析工具链接分析引文分析

文献3:链接分析检测设前提入链数网络影响因子

方法一:统计所有关 键 词两两出现次数.具体过程为:①对三篇文献出现的10个关 键 词两两共现进行统计,得到表2;②利用Uei的编辑功能将数据保存为Uci数据库,然后再利用Netdraw,将数据转换为共现网络图(见图4).

方法二:统计部分关 键 词的共现次数.具体过程为:①利用记事本,将三篇文献的关 键 词数据编辑为DL语言格式(见图5).第一行中的n等于10表示三篇文献共有10个关 键 词;format等于nodelistl这行语句指定一种形式,即数据中每行的第一个关 键 词确定了一个行动者(称之为自我点),其关系指向对应文献的其他关 键 词.②利用Uei的importtestfile-DL直接将记事本数据转换为它可以处理的文件格式.其实际处理数据是图6.Uei读入DL文档,自动生成关 键 词共现矩阵.③利用Uei的绘图功能得到共词网络图(见图7).

对比图4和图7可以发现,在两种方法得到的关 键 词共词网络中,节点都代表了文献中出现的所有关 键 词.第一种方法可以全面显示关 键 词共现的信息,而第二种方法只显示每篇文献中第一个关 键 词与其他关 键 词共现和多篇文献同出现的关 键 词的信息.从网络图构建的过程看,第二种方法操作简单;当网络中节点较多时,其可视化效果较好;低频词的信息也很容易在图中显示.其缺点是只揭示了关 键 词之间部分共现信息.


3 基于词频统计和共词网络的研究主题分析

3.1 基于词频统计的研究主题分析

本文研究的图书情报学期刊共发文133篇,篇均关 键 词为4.03个,去重后共有关 键 词249个;计算机科学期刊共发文78篇,篇均关 键 词为4.33个,去重后的关 键 词共188个.从表3看,除链接分析、Pager―ank、搜索引擎三个关 键 词外,两类期刊的高频词没有重合,这反映出两类期刊论文的研究内容有很大的差异性.计算机科学期刊发文的重点是链接分析的相关算法、页面或网页排序、信息检索(Web信息检索)、主题提取、主题漂移和Web结构挖掘等主题.图书情报学刊物发文重点是网络计量学、网络影响因子、网站评价、共链分析、引文分析等主题.对照郑曦等、邱均平等的研究可以发现,国内研究的热点主题与国外的基本一致.相对而言,国内链接分析应用在博客、网站、网络信息资源的评价等领域成果丰富.

3.2 基于共词网络的研究主题分析

3.2.1 图书情报学领域 为了从更细的颗粒度来分析国内链接分析的研究内容,下面分别对网络评价等子主题进行研究.运用链接分析方法对网站或网络资源进行评价是图书情报学领域重要的研究内容.这方面论文共有45篇,占总体的34%.图8是笔者利用Uei绘制的共词网络.

从图中可以发现,这些关 键 词形成两个大的部分.一部分主要是利用链接分析方法对网络信息、信息资源、博客等对象进行评价.另一部分则是对大学网站、核心网站、图书馆网站、专利网络等进行评价.从图中还可以发现,这些研究成果除利用链接分析之外,还同时采用了灰色关联分析、引文分析、社会网络分析、比较研究、分类等研究方法.结合关 键 词出现的时间可以发现,图书情报学领域利用链接分析研究的网站类型越来越多,而且研究过程中比较注重多种研究方法的共同使用.

链接分析方法是网络计量学的一个重要研究领域.关 键 词中包含“计量”的链接分析论文共有49篇,占总体的37%.从图9看,整体关 键 词网络形成了三个部分.左、右两个部分的关 键 词分别以“网络计量”和“链接分析”为中心成射线状分布.左部分的研究内容主要是“共链分析”、“网络链接”、“链接的类型与特征”、“网络信息资源”,研究过程中同时采用内容分析等研究方法.右部分则是知识地图、文献计量、Web结构挖掘等与网络计量相对独立的一些研究内容.中间部分的关 键 词则与左、右两个中心都有联系,在网络中作为连通两者的“桥梁”,涉及网站评价、网络影响因子等与左、右两部分中心词关联性较强的研究内容.这也反映出国内图书情报学学者的研究内容相对集中.

国内链接的计量参考属性评定
有关论文范文主题研究: 关于计算机科学的论文范文 大学生适用: 学院论文、学士学位论文
相关参考文献下载数量: 82 写作解决问题: 写作参考
毕业论文开题报告: 标准论文格式、论文结论 职称论文适用: 刊物发表、职称评副高
所属大学生专业类别: 写作参考 论文题目推荐度: 最新题目

3.2.2 计算机科学领域笔者经词频统计发现,计算机科学期刊发文关 键 词中包含“主题”的论文有23篇,约占总体的30%.图10是这些论文关 键 词形成的共词网络.从中可以发现,主题爬虫、主题抽取、主题发现、主题相似度计算、主题漂移这些主题不仅与链接分析有很高的相关度,同时与Web挖掘、搜索引擎、Web信息检索等有较强的关联性.

另一个研究较多的主题是“排序”,共有15篇文献,占总体的15%.从图11看,既有排序算法的研究,也有网页和页面排序,同时涉及“搜索引擎”、“Pager.ank”、“语义网”等相关主题.与图4、图5相比,图6除“链接分析”外,没有其他强势的中心节点.这反映出计算机科学期刊上这类发文在内容上相对独立.

“链接分析”、“搜索引擎”和“PageRank”虽然都是图书情报学和计算机科学期刊上发文中出现较多的关 键 词,但从图12看,两类期刊所发文章的具体研究内容却不尽相同.围绕这三个关 键 词,图书情报学期刊的研究内容集中于“博客计量”、“网络信息资源评价”、“网络计量”、“链接类型、结构和分析工具”、“信息检索”和“大学评价”等主题,既包括链接分析的基本理论研究,也涉及到链接分析的应用研究.而计算机科学期刊则围绕“主题”、“排序”、“Web挖掘”、“算法和模型”等主题展开研究.

4 研究队伍的结构及分析

为了对国内链接分析领域的研究队伍状况进行分析,本文利用Uci分别绘制了两类期刊发文作者的合著网络图(见图13和图14).

4.1 从合著率看

在图书情报学领域,有34篇文献是单一作者的论文,合著率是74%;而计算机科学期刊上单作者论文只有5篇,合著率是94%.这表明从论文合作角度看,计算机科学期刊上发文的合作程度较高.对照郑曦等的统计数据可以看出,国外链接分析的研究在2002―2007年之间的合作率一直在75%以上.这表明链接分析领域的科研人员之间合作非常普遍,同时也从一个侧面表明链接分析是一个学科交叉的领域,研究需要综合多方面的相关知识.

4.2 从合作的规模看

两类期刊上发文的合作规模都是以2人或3人合作为主,4人以上的较少.从网络角度分析,图书情报学期刊上的发文,以武汉大学邱均平教授为中心,形成了一个非常明显的规模较大的合作团队,且多是师生之间、同一导师的学生之间的合作;而计算机科学期刊上的发文作者没有出现较大规模的合作网络,研究者之间的合作程度较低,这种情况与作者研究主题相对独立有关,图10、图11就是较好的例证.

5 结论

从前面的分析可以看出,目前国内链接分析的研究主要分布在图书情报学和计算机科学两个领域,而且基本形成了各自独特的研究内容和学科优势.但与国外学者相比,无论是链接分析的基本理论,还是研究方法和研究工具等方面,均存在较大的差距.笔者认为,国内链接分析今后应该加强以下5个方面的研究:

5.1 加强基础理论的研究

国内外学者通过对Web结构、链接规律、链接分类、链接分析算法、链接分析工具等内容的研究,已经形成了一些链接分析的基础理论.但互联网的飞速发展必将为链接分析的基础研究提供更加丰富的养分,基础理论研究也将是链接分析研究最重要的研究内容之一.

5.2 开拓新的研究领域

一方面,随着互联网的飞速发展,微博、维基等都可以成为新的研究对象;另一方面,链接分析除用于网站评价、网页排序等领域外,在网络舆情分析和网络热点追踪等方面也有一定的应用价值.

5.3 提出新的算法

国内在链接分析领域关注最多的是PageRank算法和HITS算法.但它们都有各自的优势和不足.国内学者应该加强算法方面的研究,并将其应用在网页排序、网站评价等实践中.

5.4 开发链接分析研究工具

目前,国内在链接分析研究过程中,通常使用Soc―SciBot、Cyclist等工具或利用Google、AltaVista等搜索引擎来收集研究数据,然后再利用Pajek、SPSS等软件进行可视化处理.国内学者可以开发一些将数据收集、处理、分析一体化的集成软件,以提高链接分析研究的效率.

5.5 注重学科交叉与整合

链接分析是一个学科交叉的研究领域,但无论从研究主题,还是从科研队伍的合作情况看,国内图书情报学和计算机科学两个学科之间的合作程度还较低.今后应该加强合作,优势互补,提高我国链接分析研究的整体水平.