文献计量法对近六年我国自动标引的

点赞:4740 浏览:13440 近期更新时间:2024-02-23 作者:网友分享原创网站原创

自动标引(Automaticindexing)是指利用计算机系统从拟存储、检索的事实情报或文献(题目、文摘、正文)中抽取检索标志的过程[1].自动标引研究可以分为三个阶段:从Luhn于1957年开始进行自动标引后开始,到目前为止,自动标引研究经历了50年的发展历程.一直到20世纪90年代初,关于关 键 词自动提取的研究一直就没有停止过[2].20世纪90年代初到90年代末,自动标引研究渐渐冷却,原因主要包括:全文索引逐渐被人采用,并且基本上能满足用户需要,传统的自动标引方法的效率到了极限,网络兴起之初的冲击与信息需求环境的改变[3].从20世纪90年代初至今,自动标引的研究越来越多的成为了人们关注的焦点.其产生的原因一方面是用户对全文检索结果精确度的要求越来越高,另一方面则是由于互联网的发展,用户需要的各种怎么写作都是建立在自动标引的结果之上的.

1载文量分析

本文以“自动标引”、“关 键 词提取”、“关 键 词抽取”、“主题提取”、“主题抽取”等为主题,在CNKI的《中国学术期刊网络出版总库》中检索了2005年至2011年的所有论文,结果得到了644篇相关论文.论文年度分布情况如表1所示.

由表1可知,我国自动标引研究的论文基本呈逐年稳健增长的趋势,由2005年的74篇增加至2010年的111篇,平均每年增加7篇.2008年、2010年两年的是该研究论文产出的高峰年,增长量均超过10篇.其中2008年的增长率达到16.67%,是近几年增长速度最快的一年.

如何能使自动标引系统在形成人类思维过程的同时又能吸收专拣的判断经验,一直是我们研究的方向,也就是向着语言分析和专家分析的方向发展,并在此过程中集成更多的学习方法.

2作者情况分析

通过对论文著者的统计分析,可以发掘该研究领域的关键性作者,从而反映该领域关键住着的研究情况.本文检索出的644篇论文涉及作者1033人次,平均每篇论文1.9个作者.本文采用均一统计、第一作者和作者加权三种方法对作者进行排名,确定自动标引研究领域的高产作者,结果如表2所示.

文献计量法对近六年我国自动标引的参考属性评定
有关论文范文主题研究: 关于计算机类的论文范文文献 大学生适用: 电大论文、硕士论文
相关参考文献下载数量: 33 写作解决问题: 写作资料
毕业论文开题报告: 论文提纲、论文总结 职称论文适用: 刊物发表、职称评副高
所属大学生专业类别: 写作资料 论文题目推荐度: 最新题目

作者均一统计法是指如果一篇论文有多个作者,那么同等看待这些作者,即每个作者的该篇的发文量都为1,第一作者发文统计法就是指一篇文章只考虑第一作者,其他合著作者该篇的发文量视为0,作者加权统计法是指如果一篇论文有多个作者,那么根据作者的顺序进行加权处理,即按合著文献中每个作者的排名递减分配其权数,设合作者人数为n,则排名第i位的作者的权数[4].

由表2的三种统计结果可以把作者分为三类.第一类是三项排名均名列前5的作者,其中最为突出的是均名列第一位的作者——章成志.章成志是南京理工大学经济管理学院的研究生导师.近几年在自动标引领域参与发文最多,以第一作者身份发文15篇,名列第一,是自动标引领域的核心作者.

第二类是使用第一作者或作者加权统计法名列前茅的作者,如杨洁、蔡巍.由此可以看出,这些作者凭借着较高的发文量,成为该研究领域不可缺少的主要力量.

第三类作者是其他两种方式排名较低而均一统计方法排名靠前的作者,例如侯汉清,他在该领域的发文量为20篇,但其中以第一作者发文的仅3篇.出现这种现象淬在两种可能:一种是存在挂名现象(包括主动的与被动的),另一种是对他人论文的指导或审校工作较多[5].

3关 键 词分布分析

本文利用Excel的宏对644篇论文进行统计和一系列的计量分析预处理之后,得到关 键 词1181个,共出现2070次,平均每篇论文有2.5个关 键 词.论文中关 键 词的个数从1到13数量不等,但以含有3个关 键 词的论文最多,达158篇,占论文总数的33.3%.含有3~6个关 键 词的论文总数达450篇,占论文总数的94.9%,说明绝大多数论文的关 键 词数量是3~6个,这符合学术论文的一般要求.出现频率越高的关 键 词,越能更好的突出论文的主题.本文对644篇论文的关 键 词进行相应的计量分析,并统计出高频关 键 词.出现频次最高的关 键 词是“自动标引”.其次是“关 键 词抽取”和“关 键 词提取”,这三个关 键 词为主题性关 键 词,占总数的11.9%,而且与其他关 键 词相比较,其数量上的优势较为突出.表3中的关 键 词基本可归纳为两种类型:一类是反映论文主体的关 键 词,另一类是反映论文内容的关 键 词,前者反映了该学科的特点、研究的重点范围等,如自动标引、关 键 词抽取、关 键 词提取等,内容型关 键 词反映了学科的研究内容或研究工具,如信息检索、问答系统、搜索引擎、自动分类等.从表3中反映论文内容的关 键 词可以看出自动标引领域近几年的研究的突破点和重点方向.

4期刊刊载情况分析

644篇论文中有392篇期刊发表论文,刊载在136种不同的期刊上.经过分析笔者发现这些期刊基本可归纳为三种类型:一种是计算机类,一种是图书情报类,还有一种是大学学报,即综合类期刊.其数量分别是:计算机类32种,图书情报类39种,综合类期刊28种.从载文量来看:计算机类期刊的载文量是109篇,图书情报类期刊的载文量是134篇,综合类期刊的载文量是97篇,其他期刊载文量52篇,图书情报类期刊和计算机类期刊的载文量高达293篇,占总论文数的89.3%,由此证明图书馆情报类期刊和计算机类期刊是自动标引课题论文的主要刊载期刊.另一方面由于自动标引研究不仅涉及到语言学、计算机信息学,同时也是图书馆学研究的课题,所以对于这种交叉多学科的研究课题,期刊刊载情况也属正常现象.这10种期刊中有7种均为中文核心期刊,《情报学报》居首位,另外这10种期刊中图书情报类期刊有5种,计算机类期刊有5种.这正好与图2显示的期刊载文量的信息是一致的,说明了该类型论文的主要刊载趋向.

5作者机构分析

笔者通过对论文作者所在机构的统计分析,得出了该领域研究的高差机构,前10位的高产机构中有5所属于在大学的计算机学院、计算机系,4所属与信息管理与信息科学系,研究生院1所.这些机构为自动标引研究作出了突出的贡献.另外,机构的发文量与该机构的高产作者是有密切联系的,比如南京理工大学信息管理系的章成志,南京农业大学信息管理系的侯汉清等都是高产作者,其所在机构也分别是高产机构的前5名.

6结语

由于一些客观或主观的原因,本文在统计分析过程中存在着一些问题.客观原因是《中国学术期刊网络出版总库》不可能收录所有的文章,在检索的过程中也可能存在一些偏差,主观原因是笔者选取的关 键 词并不全面,而且在进行分析判断是也由于个人能力因素,存在一些人为的错误.

以上对我国近六年自动标引领域研究的论文进行的多角度分析,其目标是对自动标引的现状与研究脉络进行了进一步的揭示.从各项分析的结果可以看出:(1)我国自动标引的研究尚处在上升阶段,发展速度较快,并已形成了一定的研究规模.(2)我国自动标引的研究者人数众多,说明自动标引研究已经成为被广泛研究的课题,同时也形成了以章成志和侯汉清等学者为核心的关键作者群体.(3)通过对关 键 词的统计分析,可以了解到自动标引已经有了自己比较稳定的研究内容,包括关 键 词提取、主题提取、信息建设等多方面的资源和多种应用技术.(4)自动标引研究论文发表的期刊分布广泛,涉及图书情报学、语言学、计算机科学等学科,其中,图书情报类期刊和计算机类期刊是主要的刊载范畴,《情报学报》是刊载最多的期刊.(5)研究机构主要集中在高等院校和科研院所,南京农业大学信息管理系、哈尔滨工业大学计算机科学与技术学院、上海交通大学计算机科学与工程系、南京理工大学信息管理系等是自动标引研究最重要的机构.