期刊共被引相似性测度问题的实证

点赞:5206 浏览:16405 近期更新时间:2024-03-10 作者:网友分享原创网站原创

[摘 要]在共被引分析中,还有诸多问题未解决,如原始数据是否需要标准化,选择何种相似性测度方式更为准确可靠.从理论分析和实证研究两个方面探讨期刊共被引相似性测度问题,得出期刊共被引分析是否需要将数据进行标准化处理的结论及切比雪夫距离是期刊共被引分析中相似性测度的理想选择.

[关 键 词]期刊共被引 标准化 相似性测度 聚类分析

[分类号]G350

1 前言

学术期刊的共被引强度反映了期刊的亲疏关系,可以用来挖掘学术期刊之间的关系,并且通过聚类分析对期刊进行分类,能进一步考查学科的内部结构和联系情况.

自1991年McCain将共被引分析方法运用于期刊研究以来,国内外学者进行了深入研究,拓宽了其应用领域.学术界对期刊共被引方法的关注,体现了期刊共被引分析的内在发展张力;此外,现代检索技术的发展、科学知识图谱的兴起、可视化技术的发展以及社会网络分析技术的成熟,形成了期刊共被引方法的外在推动力,使期刊共被引发展为一种较为成熟可靠的计量分析方法.

但是,期刊共被引分析方法同样存在几个有待商榷的问题,如:在完成数据收集作进一步分析前,原始的共被引矩阵是否需要进行数据标准化处理作为分析对象,期刊有着与文献、作者、专利不同的特点,在相似性测度问题上,是否应该考虑期刊的独特性相似性(关联性)的测度方法众多,哪种方法更为准确这些都是当前学术界讨论的热点问题.

2 标准化的问题

2.1 前人的研究成果

在共被引分析方法提出之初,学术界普遍认为原始共被引矩阵需要标准化,才能用于进一步的聚类分析、多维尺度分析等.当时的观点认为共被引分析关注的重点不是共被引次数的高低,而是共被引所形成的相似性,故统计分析的第一步需要将原始矩阵标准化,转换为相关矩阵.

2006年,Leydesdorff等撰文指出原始共被引矩阵不应该进行转化;同时,应该考虑不同类别的矩阵的性质.他们通过讨论对称的共被引矩阵与非对称的引用矩阵的区别,认为将原始矩阵转化(标准化)为相似矩阵的措施(如Pearson相关系数或余弦值等)不应该用于对称共被引矩阵,但可以应用到由不对称引用矩阵推导出的临近矩阵.这篇文章引起了学术界对共被引分析的更大范围的讨论.WaItman和VanEck对此提出了反驳意见,认为共被引矩阵同样需要标准化,并且需要进一步研究采用何种相似性测度方法(Pearson相关系数、余弦值等).Leydesdorff随后回应,他在文章中对比分析对称的共被引矩阵和非对称的引文矩阵,并比较了这两种矩阵分别采用各种相似性测度的结果.2008年,我国学者邱均平等在《关于共被引分析方法的再认识和再思考》一文中,重申共被引矩阵标准化的重要性,并认为由于共被引强度受学科、专业甚至研究方向的影响很严重,所以组成的矩阵数据差别大;比如,科学计量学者之间共被引强度高而与信息检索学者共被引强度低,这样相当于变量单位不同而造成数据相差悬殊的现象;标准化可以缩减这样的差距,减少突出数据的影响,在随后的矩阵运算中能更好地表现出变量间的关系.

2.2 期刊共被引原始矩阵数据是否需要标准化

共被引分析的方法与步骤,是学术界以作者共被引为研究对象进行总结的.当前的一些做法是直接将前人对作者共被引分析的结论运用于期刊分析中,专门针对期刊这一独特的分析对象探讨是否要进行数据标准化的文献还不多见.

由于作者共被引和期刊共被引有着本质不同,因此将作者共被引分析的思路及方法全部照搬到期刊共被引上来,存在不合理的地方:①期刊有相对稳定的发文量,并且发行周期相对固定,这与科研人员发表论著有明显的不同.②尽管每个刊物的影响力各不相同,但在同一学科下,多数刊物在本学科重要的研究方向上都有栏目,因此,刊物间都会存在共引、互引的情况;特别是将研究范围限定到某一学科的“核心”期刊时,期刊间都存在完全的共被引;也就是说,Ahlgren等人提到的“零模块问题”在期刊共被引分析中――特别是限定到同一学科下的期刊共被引研究――是不存在的.而作者由于个人兴趣及精力所限,研究范围不可能像期刊刊载论文那样面面俱到,从而作者间没有互引、共被引也是正常现象.③对称的期刊共被引矩阵本身已是一种相似性的矩阵,可以直接用于多元分析;将原始的共被引矩阵数据进行标准化,会破坏数据隐含的完整信息,丢失部分重要的信息.

对于是否需要对原始的期刊共被引矩阵进行标准化的问题,笔者认为应该结合分析对象及分析周期具体考虑,可分为如下几种情况:①对跨学科的期刊进行共被引分析时,期刊群必定包括两个及以上学科的核心期刊和学科交叉的期刊,由于学科的差异,这些期刊之间的共被引次数差别将会比较大,此时,有必要进行标准化,消除总被引次数带来的影响.②若分析对象为某一学科内的期刊,在没有出现“零模块”的条件下,将数据进行标准化处理会造成期刊共被引数据隐含完整信息的破坏,丢失一些重要相似性信息.此时,不应该对原始数据进行标准化.③当共被引分析的对象是某一学科的核心期刊群时,这些核心期刊的共被引次数必然在该学科全部期刊平均共被引次数之上,不需要再对共被引原始数据进行标准化处理.

3 相似性测度方式的选择问题

3.1 相似性的直接测度方法:Pearson相关系数和Salton余弦函数

Pearson相关系数即为统计学上的“相关系数”,本质上是测度两个变量之间的线性相关性,揭示变量间关系密切的程度,取值在[-1,1]之间.

Pearson相关系数是共被引分析中应用最广泛的测度方式.国外学者中,White和GriffithEsl于1981年提出用Pearson相关系数分析共被引关系.1990年McCain将作者共被引技术总结为如下步骤:选择作者、检索共被引频次、生成共被引矩阵、转化为Pearson相关系数矩阵、多元分析和解释结果.McCain总结的这个经典模式,将原始矩阵转化Pearson相关系数矩阵,成为学术界的普遍做法.尽管学术界对此仍有较多争议,但仍有许多学者坚持Pearson相关系数作为共被引相似性测度的合理性,如White和Benan在回应Ahlgren、Rousseau等提出不应用Pearson相关系数进行相似测度的观点时,支持运用Pearson相关系数测度方法,并就采用Pearson相关系数的渊源做出解释.White通过对Pearson相关系数等测度方式的实证比较研究,认为Pearson相关系数测度方法更为合理.国内的研究对共被引分析中相似性测度问题的关注比较少,更多的文献是运用某种方式进行相似性测度的实证研究,其中最普遍的是运用Pearson相关系数.

Salton余弦函数是将向量映射到第一象限下来考虑其夹角的大小,余弦值表征的是两个向量的夹角,取值范围在[0,1]之间.若余弦值等于1,则表明两个向量的夹角为0,即它们重合,完全相似;若余弦值为0,则表示两个向量夹角为90度,即完全不重合不相似.

Salton余弦函数测度较常运用于非对称引文矩阵的分析.Ahlgren、Jameving和Rousseau在他们共同发表的论文提出共被引相似性测度的两个必要条件,进而提出对Pearson相关系数的质疑,建议可用Salton余弦函数代替.

3.2 相似性的间接测度方法:距离测度方式

距离测度方式,是多元分析中较常使用的方法,是通过测量两个分析对象的距离来分析它们的相互关系.距离越小,关系越密切;距离越大,关系越远.距离测度是一种非相似性测度的方法.

曾被运用于共被引分析有的距离主要有:欧几里德距离(Euclideandistance)、欧几里德平方距离(SquaredEuclideandistance)和卡方距离(theChiSquaredDistance).Ahlgren、Jameving和Rousseau于2003年提出对Pearson相关系数的质疑,建议用余弦函数或者卡方距离代替Pearson相关系数.邱均平等认为卡方距离不适合共被引分析,因为共被引矩阵的数据类型应被看成连续变量(Interval),而卡方距离一般用于计数变量(counts)的处理.他们肯定Ahl-gren等提出的相似性测度的两个必要条件是非常正确的,认为Pearson相关系数矩阵自身的确存在问题,欧氏平方距离能满足这两个必要条件.他们还从程序的统一性角度说明欧氏平方距离测度方法是更好的相似性测度方法.


实际上,在多元分析中,常用的距离测度方法还有马氏(Mahalanobis)距离和明可夫斯基(Minkowski)距离,其中明可夫斯基距离又有三种特殊形式,分别是绝对值(cityblock)距离、欧氏距离(Euclidean,即上文提到的欧几里德距离)和切比雪夫(chebychev)距离.

3.3 何种方式更适合期刊共被引分析

在之前的文章中,笔者认为共被引分析应该针对作者、期刊、专利等不同分析对象的特点,考虑其不同的对角线取值方式.同样,笔者认为期刊共被引分析的相似性测度方式也应重新考虑.

Pearson相关系数和Sahon余弦测度直接测度变量之间的相关性.正如Jones和Furnas所认为,Salton余弦和Pearson相关系数作为测度方式是等同的,不同在于前者采用几何平均,后者采用的是算术平均.Egghe和Leydesdorff也通过数学演算得到了Pearson相关系数和余弦函数的数学公式转化关系.vanEck和Waltman指出统计意义上的Pearson相关系数是衡量两个随机变量之间的线性关系,但共被引关系并不是简单的线性关系.Leydesdorff则认为Salton余弦测度更适用于非对称的引用矩阵的可视化分析.在共被引分析运用于期刊时,Pearson相关系数和Salton余弦测度更多地是揭示两种期刊所载文献的共被引次数,但显然共被引次数的大小并不是相似性的强弱.因此,笔者认为Pearson相关系数和Stilton余弦函数不是期刊的共被引关系相似性测度的最佳选择.

期刊共被引相似性测度问题的实证参考属性评定
有关论文范文主题研究: 关于图书馆的论文范文文献 大学生适用: 在职研究生论文、专升本毕业论文
相关参考文献下载数量: 47 写作解决问题: 如何怎么撰写
毕业论文开题报告: 文献综述、论文小结 职称论文适用: 核心期刊、职称评初级
所属大学生专业类别: 如何怎么撰写 论文题目推荐度: 优秀选题

马氏距离适用于变量的量纲不同、测量值变异范围相差悬殊的情况,而期刊共被引分析不存在量纲不同的情况;并且在聚类分析时,马氏距离夸大变量细微变化的缺点非常明显.

绝对值距离、欧式距离与切比雪夫距离同是明可夫斯基距离对应于不同取值的几种形式,它们在数学原理上有一定的相似性.为比较谁更适合用于期刊共被引分析的相似性测度,本文引入Cophe函数(取值在[0,1]间,计算方法将在后文介绍)用于计算聚类过程中分类所确定的结构与原始数据间的拟合程度,该值越接近1则说明聚类结果与数据间的拟合程度越高、聚类过程中信息丢失越少.笔者认为,以此来判断相似性测度的选择更为客观.

4 实证研究

4.1 研究方法与过程

下文将对共被引分析中常用的几种测度方式在标准化与非标准化两种情况下进行实证研究.

本研究选择中文社会科学引文索引数据库(CSSCI)收录的15种图书情报学核心期刊,以中国期刊全文数据库(CNKI)为数据源,对这15种期刊1996~2006年所刊载的论文进行期刊共被引的计量分析.需要说明的是,期刊共被引矩阵的对角线取值采用期刊与自身的实际共被引次数.

聚类分析(ClusterAnaXysis)是研究如何将对象按照多个方面的特征进行综合分类的一种统计方法,是一种定量方法,是从数据分析的角度给出一个更准确、细致分类的分析工具.聚类分析是共被引分析的重要一环,可以用于揭示学科结构并描绘学科结构的发展历程;结合社会网络分析,可以考查这些期刊在本学科的“地位”.

本研究以Matlab7.1软件作为分析工具,采用各种相似性测度方式对期刊共被引数据进行标准化与非标准化的聚类分析,并对聚类结果作对比分析.Cophe是Matlab中的一个内置函数,用于检验某一算法下产生的二叉聚类树和实际情况的相符程度,其值越高,说明聚类结果与数据间的拟合程度越高、聚类过程中信息丢失越少,越与实际相符.将Cophe函数值作为测量聚类结果优劣的一个标准,是比较客观的选择.

4.2 结果分析

4.2.1 Pearson相关系数和Salton余弦函数测度对于直接测度方式来说,标准化后的共被引数据,采用Pearson相关系数和Salton余弦函数测度得到的cophe值均高于未标准化的情况;无论标准化或非标准化,采用Pearson相关系数测度都能得到比Salton余弦函数测度更高的Cophe值.

再看聚类结果,考察期刊群的分类情况.采用Pearson相关系数或Salton余弦函数测度分析非标准化数据时的聚类优于标准化的情况,而且非标准化时两者结果是一致:将图书情报期刊群分成两大类,第一大类为图书馆学期刊群,包括《图书情报工作》、《中国图书馆学报》等10种;第二大类为情报学期刊群,包括《情报科学》、《情报理论与实践》等5种,如图1所示:

4.2.2 距离测度笔者将各种距离测度方式,在聚类中得到Cophe值进行列表比较,如表1所示:

从表1可看出,马氏距离聚类的Cophe值非常低,数据所含信息丢失严重,聚类效果很不理想,这里不再列出聚类图.明可夫斯基距离在这里表现为欧氏距离,得到相同的聚类结果.明可夫斯基距离的三种形式中,非标准化数据直接进行距离测度得到的co―phe值均高于标准化的情况,其中,拟合最好的是非标准化数据下的切比雪夫距离测度.这三种距离测度方式的聚类结果如图2所示:

由图2可看出,共被引数据标准化前后,绝对值距离测度得到的聚类和cophe值变化微小,切比雪夫距离测度得到的聚类和cophe值变化最明显.作为明可夫斯基距离的三种具体形式,共被引数据标准化前后,它们得到的聚类结果比较接近.尤其是在数据非标准化时,它们能得到一致且效果很好的聚类结果:

第一大类是被引和共被引频次最高的《中国图书馆学报》和《图书情报工作》.这两种期刊都在图书情报学中占有很重要的地位,它们的相关性最高,具有非常相似的同被引情况,具有较高的被引频次和影响因子.此外,它们还具有一致的主题结构,期刊研究的主题范围都比较广.

第二大类由三个小类组成.第一小类由《图书馆理论与实践》、《图书馆学研究》、《图书馆工作与研究》、《情报资料工作》和《图书情报知识》组成,它们总体特点是具有比较明显的双栖性,期刊主题偏重于图书馆学.该小类是所有聚类中最大的一类,实际上图书馆学和情报学并没有明确的界限,也说明图书情报学没有明确界限是该学科的一个明显特征.第二小类由《情报科学》、《情报理论与实践》、《情报学报》和《现代图书情报技术》四种期刊组成,它们都是情报学期刊,并且技术方面的文章占的比例也相对较高.第三小类是由《大学图书馆学报》、《图书馆杂志》和《图书馆论坛》三种期刊组成,它们是以图书馆学为研究重点的期刊.

4.3 结论

在期刊共被引聚类分析中,相似性的间接测度方法(明可夫斯基距离测度)优于直接测度方法(Pearson相关系数和salton余弦函数测度),理由在于:前者聚类能得到更高的cophe值和更详细合理的期刊分类.在明可夫斯基距离的三种形式中,切比雪夫距离的聚类拟合最好.

上述分析与实证的结果表明,分析某一学科核心期刊群的共被引关系时不需对原始数据进行标准化的处理;期刊共被引聚类分析时,切比雪夫距离测度是更为准确可靠的相似性测度方式.

5 结语

期刊共被引矩阵与其他共被引矩阵有一定的相似性,若能将本文的结果推广到其他共被引分析(如作者共被引分析),则结果更具有普遍性;但如前文2.2所述,这些共被引矩阵仍有不同之处,相应的推广工作还需进一步的实证进行验证.

另外,本文引入coph函数作为判断研究结果优劣的数量化指标,较前人定性判断研究有一定的进步,从某个角度避免了主观因素的干扰.但这并不能作为判断研究结果优劣的唯一视角,对于此内容仍有进一步挖掘的空间.同时,这几个方面也将是笔者进一步研究的主要内容.