数据挖掘领域的科研合作网络

点赞:3777 浏览:10493 近期更新时间:2024-04-08 作者:网友分享原创网站原创

[摘 要 ]基于SCI和SSCI数据库中以“数据挖掘”为主题的文献题录信息,构建三个科研合作网络(高校间、公司间、国家间),利用社会网络分析方法对这三个不同类型的网络特征进行对比分析.结果显示,数据挖掘领域的研究成果涉及众多研究方向,不同的机构实体有不同的研究重点,所构建的三个不同类型的科研合作网络在诸多网络特征上存在较大的差异,包括合作网络的密度、节点的平均度、最大成分的平均最短路径、最大成分的比重等.最后对部分高校与公司的研究重点进行具体分析.

[关 键 词 ]数据挖掘 科研合作网络 社会网络分析

[分类号]TP393

1 引言

随着科学技术的迅速发展、全球化进程的不断加剧和专业学科的日益细分,合作已成为国家、机构和个人之间普遍存在并日渐加强的一种互动方式.科学研究作为一项特殊的、以脑力劳动为主的社会劳动,需要科学家之间不断进行智力的切磋、思想的交流,形成最佳的科研合作团队,共同推动科学的发展,因此,合作在科学研究中具有更加重要的意义.近年来针对科研合作已有不少相关的理论和实证研究,研究显示,普遍的科研合作正在成为一种趋势,可以帮助知识与技能的分享与传递,节约学术资源,帮助科学家和机构了解最新科学前沿,产生新的学术思想,提高学术竞争力等.

数据挖掘(data mining)是一个多学科的交叉领域,一般是指从存放在数据库、数据仓库或其他信息库中的大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程.数据挖掘的概念从20世纪80年代被提出后,不仅吸收了许多学科的最新研究成果,而且研究和应用的领域也非常广泛,相关的研究论文保持逐年增长的趋势,其内容不仅涉及数据库、人工智能、统计学等基本概念领域,也包括大量的商业和医学应用.

在对某个研究领域的合作情况进行分析时,社会网络分析是一种主流方法,其具体操作是把科学家或研究机构、所属国家等科研实体抽象成为节点,实体之间的科研合作抽象成为节点之间的连线(即边).研究显示,科研合作网络具有复杂网络的特征,不同的研究领域也表现出不同的合作网络特性.目前对科研合作网络的研究已有不少成果,但通常都集中在某些特定的合作方式,如以作者为节点的合著网络,也有一些研究对其他的合作方式,如高校合作、机构合作、国际合作进行了分析,但针对某一个领域,综合考察多个角度的合作网络的文章并不多见.故此,本文从数据挖掘这一蓬勃发展的领域入手进行了相关尝试,分析对比得出有意义的结论.

2 数据与方法

2.1 数据来源

本文选取Web of Science数据库中的SCI-Ex-panded、SSCI、A&HCI为数据来源,检索策略为“TS等于(“data mining”)”,关闭词形还原,时间范围设定为1992-2011年(覆盖20年的数据),共检索出21 816条原始记录(检索时间为2011年6月20日).在下载数据源时选择了EndNote工具进行批量下载,EndNote软件可以自身进行一些数据预处理,如查重、去掉不需要的属性,所输出的格式比较规范,尤其是第一、第二、第三作者分别对应了自己的地址,方便后续编程和进行作者和对应地址的拆分,进而方便进行机构合作的分析.

2.2 方法和工具

在统计数据挖掘领域的文献基本特征信息的基础上,借助社会网络分析方法,对该领域文献的科研合作情况进行分析,从原始数据中提取高校合作、公司合作、国家合作三个角度进行量化统计和对比研究.在分析过程中使用了SPSS、Pajek、Excel等软件工具辅助分析以及Ja编程语言对文本文件进行批处理.SPSS和Excel是常用的统计学工具,Pajek则是社会网络分析中一种常用的软件.Pajek在Windows环境下运行,可用于上千乃至数百万个节点的大型网络的分析和可视化操作,Pajek支持将大型网络分解成几个较小的网络、执行多种分析大型网络的有效算法、灵活的可视化展示等功能.

2.3 数据预处理结果

数据预处理的工作主要包括题录信息的导出、人工剔除不相关文献、去重、关 键 词 和作者的空值补充、乱码删除、大小写转换等工作.在原始记录的基础上进行预处理,得到有效文献20816篇,其中会议论文(包含proceedings,congress,conference,workshop)9 576篇,期刊论文11230篇,其他类型文献10篇.排除2011年数据不完整的情况,从历史文献数据看,数据挖掘领域的研究呈现逐年增长的趋势,特别是在进入2000年之后有一个较为快速的发展.

按照期刊的发文量排序,结果显示Expert Systemswith Applications(399篇)、IEEE Transactions on Knowledge and Data Engineering(284篇)、Data Mining andKnowledge Discovery(154篇)、Information Sciences(104篇)、Knowledge and Information Systems(100篇)、Data&Knowledge Engineering(98篇)等期刊排名靠前.同时数据挖掘的研究也常见于International Conference onData Mining、International Conference on Fuzzy Systemsand Knowledge Discovery、International Conference on Ma―chine Learning and Cyberics、IEEE International Con―ference on Systems等会议中.

通过提取题录信息的关 键 词 ,笔者使用Pajek的Kamada―Kawai布局优化算法生成数据挖掘领域的关 键 词 共现网络.共现网络显示数据挖掘的研究覆盖面很广,研究内容丰富,主要集中在以“算法、聚类、关联规则、模型”等关 键 词 为代表的基本理论与方法领域、以“自组织图、决策树、神经网络”等关 键 词 为代表的信息组织领域、以“基因芯片、染色体组、基因表达数”等关 键 词 为代表的生物信息学领域和以“信息检索、网络安全、数据仓库、Web挖掘”等关 键 词 为代表的IT互联网领域.

3 构建科研合作网络

科研合作网是描述科研人员人际关系的网络.网络的节点可以是科研人员、科研机构(包括高校、科研院所或企业的研究部门)、地区或国家等科研实体,如果两个实体共同进行过科研活动(如发表论文、合著专著、申请专利等),则两个节点建立一条边.从整体看这些节点和边构成了一个网络,同绝大多数复杂网络一样,科研合作网络具有网络行为的统计性、节点动力学行为的复杂性、网络连接的稀疏性、连接结构的复杂性、网络的时空演化复杂性等基本特征.尹丽春 等人的研究表明,科研合作网络具有小世界特性,即科研的合作规模很大,但任何两个研究实体却存在着相对短的路径.弱势省区倾向于与强势省区合作,弱势省区之间合作极少,以强强联合或是强弱结合的方式进行科研合作占很大比例,这也对本文考察其他科研实体合作的研究有很大启发意义.

目前,把科研著作的“作者”作为网络的节点进行合著分析的研究较多,合著分析可以看出某一个研究领域内的不同学术团体,进而分析其网络特性和研究内容,如文献[4]和文献[11]的研究结果显示,研究工作者之间形成的科研合作关系网络,也具有类似许多大型合作关系网络数据库所具有的无尺度网络特性.文献[12]把发表论文的“高校”作为节点,通过多角度的计量和网络分析,发现我国“985”高校之间存在着广泛的科研合作关系,高校发文量与其度数中心性存在显著的正相关.类似地,在文献[17]中网络的节点为“省”,文章对省区间的科研合作状态进行了研究;同时文献[5]、[13]、[18]中,都共同地把“国家”作为合作网络的节点,去探究某个领域中,哪些国家处于中心位置,是否存在“中心一边缘”的关系,一个国家最主要的合作伙伴是谁等.可以看出,目前对不同学科领域的科研合作网络的研究成果比较丰富,但是对科研合作网络的分析研究还未能形成系统性的框架,在科研合作中,除了个人、高校、区域这几个科研实体之外,公司企业的合作研究相对不足,对同一研究主题领域下的科研网络进行不同实体的合作网络分析,并做出对比的成果还较少.

下面以高校合作为例对构建科研合作网络的思路做基本阐述,公司合作、国家(或地区)合作也按照相似的思路进行.高校合作层面研究是把高校视为复杂网络的节点,当来自不同高校的作者进行了文献的合著时,视为这几个作者对应的高校也发生了合作关系,即节点之间建立了一条边,当具有一定规模数据时,可以从高校的合作图中发现,在某个领域中不同高校的活跃程度和他们之间建立了怎样的关系,这样的关系和这个领域的特点是否相关.笔者着重考察了每种科研合作网络的点度中心度、介数中心度、接近中心度、密度、最大连通子图、平均度、聚集系数等指标.节点的中心度主要是指节点在网络中所处“中心”位置的情况,只是不同的中心度所强调的侧重点有所不同.网络中一个节点N的点度中心度是指与节点N相连接的边的数量,在合著网络中表现为与其合作发表论文的不同作者的数量,节点N的度值越大就意味着这个节点在某种意义上越重要,它反映了节点的局部中心指数.点度中心度分析节点的影响力,考察其网络的直接社会关系;介数中心度分析节点对网络信息流动的影响;接近中心度考察此节点间接社会关系.最大连通子图是把图的所有结点用最少的边将其连接起来的子图.网络中所有节点度的平均值称为网络的平均度,利用Pajek软件可以很方便地计算出合著关系网络中各节点的度值并对其排序.在特定的社会网络,节点往往形成相对高密度的关系紧密的群体特征,这一特征用聚集系数来衡量.

4 三种类型的科研合作网络分析

4.1 高校科研合作网络分析

通过预处理得到的高校合作网络中有5029个节点,其中包括3357所不同的高校(大学和理工学院),剩余的是和高校共同发表文章的公司或者实验室等.高校合作三次以上的合作网络见图1,每个不同的高校为网络的节点,高校之间产生了合作则建立起一条边,高校合作有几个比较大的合作团体,如以中国科学院为核心的合作团体,以“国立”台湾大学、台湾“国立”交通大学为连接的合作团体等,说明这几个团体的数据挖掘类文章发文量较大、合作较为频繁.高校合作中存在很多的“切点”,一旦阈值增大就会形成多个小的合作团体,比较频繁的合作团体有“布鲁内尔大学(Brunel University)-辉瑞制药公司(Pfizer Inc)-纽约大学(New York University)-纽约医学院(New YorkMedical College)”(这是一个产学研结合非常好的团体,主要研究方向为生物信息学),还有“加拿大卡尔加里大学(University of Calgray)-Firat University-Global University”团体等.

4.1.1 高校合作网络的度值特性表1给出了分别在发文量、点度中心度、介数中心度、接近中心度排名靠前的大学研究机构.通过对比发文量和几个中心性指标,可以看出,不少中国高校的发文量较多,且中国科学院、香港科技大学在网络的连通性中起到了关键作用.在中国高校中,发文量排名靠前的主要有清华大学、浙江大学、武汉大学、哈尔滨工业大学、上海交通大学、华中科技大学等高校.该网络具有较小的平均最短路径4.5,和与相同规模随机网络比较大的聚类系数,具有小世界特性.高校合作网络中,最大连通图占到了整个网络的67%,说明高校之间存在较为广泛的交流.


4.1.2 高校-关 键 词 二维分析 同时,在科研领域特别强调研究的“优先权”,即是否能首先进入某一个新的研究领域具有重大意义.把某个关 键 词 首次出现对应的文献的作者高校,作为这个关 键 词 的属性,进而通过关 键 词 网络,来探寻哪些高校占领了该子领域(即该关 键 词 ),从而分析学术研究的内容分布.笔者针对“大学研究机构一关 键 词 ”两维度分析,对比在数据挖掘领域有较多学术成果的大学研究领域的侧重点.选取了排名靠前的几所大学,即清华大学、美国伊利诺伊大学、香港科技大学、台湾“国立”交通大学、南洋理工大学、美国卡耐基梅隆大学,对其数据挖掘研究内容进行了分析,他们在图2中分别依次对应形状为菱形、正方形、三角形、实心圆形、空心圆形和星形的节点.使用Pajek的remove命令将度值较低的边去掉,并对数据进行了优化,得到了具有高校机构属性的关 键 词 网络(见图2).随后对该关 键 词 网络根据节点的颜色进行拆分,得到了6所大学的单独关 键 词 网络,通过分析得出如下结论:

数据挖掘领域的科研合作网络参考属性评定
有关论文范文主题研究: 关于生物信息的论文范文素材 大学生适用: 本科论文、硕士毕业论文
相关参考文献下载数量: 23 写作解决问题: 写作技巧
毕业论文开题报告: 文献综述、论文摘要 职称论文适用: 核心期刊、职称评副高
所属大学生专业类别: 写作技巧 论文题目推荐度: 经典题目

不同大学对数据挖掘的侧重也有所不同:①清华大学:算法与关联规则、知识发现;②伊利诺伊大学:环境科学数据挖掘(地质气候)、时序数据挖掘、数字图书馆和信息可视化;③香港科技大学:图像数据挖掘、生物信息、推理规则;④台湾“国立”交通大学:数据仓库和决策树、程序优化;⑤南洋理工大学:网络日志挖掘、文本数据挖掘、知识发现;⑥卡耐基梅隆大学:生物信息(蛋白质)、能量系统、聚类和可视化.

根据每个子图,可以大致推断出该大学在数据挖掘领域的研究活跃度.以香港科技大学为例,该大学主要在数据挖掘领域有三个集中研究点,即图像数据挖掘、生物信息和推理规则.从网络的关 键 词 个数可以发现,该大学在图像数据挖掘领域的研究活跃程度要明显高于生物信息和推理规则.

不同大学之间的研究结构有所不同.有些大学研究点比较单一,比如台湾“国立”交通大学;而有些 大学的研究点呈现多样化的特点,如卡耐基梅隆大学.进一步跟踪原始数据可以发现,一般情况下,研究点单一的大学的成果基本来自某个大学的单一团体,而具有多个研究点的大学的著者则可能来自该大学的不同团体或不同院系.

在整体网络中,各个大学的研究点相对整个网络具有交叉化的特点.例如,伊利诺伊大学和卡耐基梅隆大学都发表了生物信息方面的研究成果.

4.2 公司科研合作网络分析

公司合作层面研究是把公司视为复杂网络的节点,当来自不同公司的作者进行了文献合著时,即视为这几个作者对应的公司也发生了合作关系,即节点之间建立了一条边.

4.2.1 公司合作网络的度值特性经过统计,数据挖掘领域的公司共有1705个不同节点,其中最大联通子图只有78个节点,绘图可以发现,公司的网络图中存在非常多的孤立点,即没有和其他公司合作的机构占到了80%,并不是这些公司单独发文,而是大多选择与高校进行合作,该网络同时具有小世界特性.公司合作网络中点度中心度、介数中心度、接近中心度排名靠前的公司机构有IBM、微软集团、辉瑞公司、贝尔实验室、NASA(美国航空航天局)、AT&T、法国电信、谷歌、日立公司、英特尔公司等公司.这些公司主要集中在计算机领域、电信领域、生物医药领域.

4.2.2 公司-关 键 词 二维分析

与高校类似,针对“公司研究机构一关 键 词 ”两维度分析,对比在数据挖掘领域,有较多学术成果的企业的研究成果所侧重的子领域.选取了发文量排名靠前的几所企业,包括IBM公司、微软集团、辉瑞公司、NASA、贝尔实验室、NCI(美国国立癌症研究所),对其数据挖掘研究内容进行了分析.可以看出各公司对数据挖掘的研究主要侧重于自身企业的所处行业.IBM公司是在数据挖掘领域研究成果较为丰富的公司,从网络的密集程度和覆盖范围就可看出IBM的研究覆盖了数据挖掘的主干研究范围;微软公司则涉及多个研究点,包括电子商务、聚类分类、科学信息分析;辉瑞作为一家医药公司,其研究点聚焦于药品的反映和测试;NASA和贝尔实验室在本网络上出现的点比较单一,集中于聚类和知识发现:美国国立癌症研究所使用数据挖掘技术对病毒、病症进行了相关研究.

4.3 国家(或地区)合作分析

国家(或地区)合作中,点为不同的国家(或地区),边表示发生合著的作者的国籍建立了联系,国家(或地区)合作5次以上的合作网络,如图3所示!

节点的半径越大,代表出现的频次越多.其有114个不同的国家(或地区)参与到数据挖掘的研究中来,网络中“最大成分”占到了整个网络的84%,同时具有较高的聚集系数和较小的平均最短路径,同样具有小世界特性.美国在该领域具有绝对的领导优势,同时具有很好的“控制作用”,加拿大、德国、英国、澳大利亚均为榜单前几名的交集,同时在该领域具有领先优势.关于国家一关 键 词 二维分析并未突显出不同的网络特征,在此不在赘述.

5 结论

本文就数据挖掘这一研究领域,以SCI和SSCI收录的“数据挖掘”领域的合作论文作为数据来源,利用社会网络的分析方法,分析了该领域的研究内容,并从高校、公司(企业)、国家(或地区)三个不同角度人手,分析了这些合作网络的特性.此外,还尝试把具体的研究点和合作实体结合起来进行分析,更加直观地展示了合作网络的特性,也发现不同的合作子团体占据着不同的研究分支.

三种合作网络的网络特征比较如表2所示:

通过把高校、公司(企业)、国家(或地区)的三个合作网络进行比较,结合不同网络中节点的研究内容,可以得到如下结论:

数据挖掘的相关研究成果并非只集中在计算机领域,不同机构属性之间存在研究内容的差异,不同类型科研合作网络呈现出不同的网络特性.

从节点数量可以看出,参与“数据挖掘”研究的高校数量众多(占到了所有发文机构的67%左右),其他参与数据挖掘领域的还包括各公共单位、公司、公司的研究院等;此外,有超过100个国家(或地区)的学者参与到数据挖掘领域的研究中,说明这个领域的研究引起了众多国家(或地区)的重视.

网络密度反映了节点间联系的紧密程度,过于稀疏的网络会阻碍信息交流和科研合作,同理,高密度的网络中信息传递更加顺畅.从网络密度分析可见,高校和科研院所的合作网络的研究密度都非常小,而国家(或地区)的合作网络密度较大,这可能是因为“国家(或地区)”覆盖的范围较大、节点数少,故两个实体间更容易建立联系.

节点的平均度值,即节点平均相连的边的数量.公司科研合作网络的平均度非常小,说明不同的公司团队之间通常不合作,公司参与的科研一般是和高校一起完成.

在最大成分的比重中,公司合作网络的最大连通图占整体网络的比重非常小,这说明公司之间没有形成广泛而频繁的合作网络,经常单独行动,而高校之间通常都有合作关系.

从最大成分属性看,国家(或地区)合作网络的平均最短路径最短,较小的平均路径长度说明不同国家(或地区)之间交流比较频繁,高校和公司之间需要通过较多的节点才能建立起联系;国家(或地区)合作网络的聚类系数较高,但是高校和公司的合作网络的聚类系数相对较低.