网站位置: /论文/论文查重/写作范文资料阅读

关于生物信息相关硕士论文范文,与数据挖掘领域的科研合作网络相关论文范文检索

全文下载

本文关于生物信息及网络及数据库方面的免费优秀学术论文范文,关于生物信息相关论文范文检索,与数据挖掘领域的科研合作网络相关硕士论文范文,对不知道怎么写生物信息论文范文课题研究的大学硕士、本科毕业论文开题报告范文和文献综述及职称论文的作为参考文献资料下载。

[摘 要 ]基于SCI和SSCI数据库中以“数据挖掘”为主题的文献题录信息,构建三个科研合作网络(高校间、公司间、国家间),利用社会网络分析方法对这三个不同类型的网络特征进行对比分析.结果显示,数据挖掘领域的研究成果涉及众多研究方向,不同的机构实体有不同的研究重点,所构建的三个不同类型的科研合作网络在诸多网络特征上存在较大的差异,包括合作网络的密度、节点的平均度、最大成分的平均最短路径、最大成分的比重等.最后对部分高校与公司的研究重点进行具体分析.

[关 键 词 ]数据挖掘 科研合作网络 社会网络分析

[分类号]TP393

1 引言

随着科学技术的迅速发展、全球化进程的不断加剧和专业学科的日益细分,合作已成为国家、机构和个人之间普遍存在并日渐加强的一种互动方式.科学研究作为一项特殊的、以脑力劳动为主的社会劳动,需要科学家之间不断进行智力的切磋、思想的交流,形成最佳的科研合作团队,共同推动科学的发展,因此,合作在科学研究中具有更加重要的意义.近年来针对科研合作已有不少相关的理论和实证研究,研究显示,普遍的科研合作正在成为一种趋势,可以帮助知识与技能的分享与传递,节约学术资源,帮助科学家和机构了解最新科学前沿,产生新的学术思想,提高学术竞争力等.

数据挖掘(data mining)是一个多学科的交叉领域,一般是指从存放在数据库、数据仓库或其他信息库中的大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程.数据挖掘的概念从20世纪80年代被提出后,不仅吸收了许多学科的最新研究成果,而且研究和应用的领域也非常广泛,相关的研究论文保持逐年增长的趋势,其内容不仅涉及数据库、人工智能、统计学等基本概念领域,也包括大量的商业和医学应用.

在对某个研究领域的合作情况进行分析时,社会网络分析是一种主流方法,其具体操作是把科学家或研究机构、所属国家等科研实体抽象成为节点,实体之间的科研合作抽象成为节点之间的连线(即边).研究显示,科研合作网络具有复杂网络的特征,不同的研究领域也表现出不同的合作网络特性.目前对科研合作网络的研究已有不少成果,但通常都集中在某些特定的合作方式,如以作者为节点的合著网络,也有一些研究对其他的合作方式,如高校合作、机构合作、国际合作进行了分析,但针对某一个领域,综合考察多个角度的合作网络的文章并不多见.故此,本文从数据挖掘这一蓬勃发展的领域入手进行了相关尝试,分析对比得出有意义的结论.

2 数据与方法

2.1 数据来源

本文选取Web of Science数据库中的SCI-Ex-panded、SSCI、A&HCI为数据来源,检索策略为“TS等于(“data mining”)”,关闭词形还原,时间范围设定为1992-2011年(覆盖20年的数据),共检索出21 816条原始记录(检索时间为2011年6月20日).在下载数据源时选择了EndNote工具进行批量下载,EndNote软件可以自身进行一些数据预处理,如查重、去掉不需要的属性,所输出的格式比较规范,尤其是第一、第二、第三作者分别对应了自己的地址,方便后续编程和进行作者和对应地址的拆分,进而方便进行机构合作的分析.

2.2 方法和工具

在统计数据挖掘领域的文献基本特征信息的基础上,借助社会网络分析方法,对该领域文献的科研合作情况进行分析,从原始数据中提取高校合作、公司合作、国家合作三个角度进行量化统计和对比研究.在分析过程中使用了SPSS、Pajek、Excel等软件工具辅助分析以及Java编程语言对文本文件进行批处理.SPSS和Excel是常用的统计学工具,Pajek则是社会网络分析中一种常用的软件.Pajek在Windows环境下运行,可用于上千乃至数百万个节点的大型网络的分析和可视化操作,Pajek支持将大型网络分解成几个较小的网络、执行多种分析大型网络的有效算法、灵活的可视化展示等功能.

2.3 数据预处理结果

数据预处理的工作主要包括题录信息的导出、人工剔除不相关文献、去重、关 键 词 和作者的空值补充、乱码删除、大小写转换等工作.在原始记录的基础上进行预处理,得到有效文献20816篇,其中会议论文(包含proceedings,congress,conference,workshop)9 576篇,期刊论文11230篇,其他类型文献10篇.排除2011年数据不完整的情况,从历史文献数据看,数据挖掘领域的研究呈现逐年增长的趋势,特别是在进入2000年之后有一个较为快速的发展.

按照期刊的发文量排序,结果显示Expert Systemswith Applications(399篇)、IEEE Transactions on Knowledge and Data Engineering(284篇)、Data Mining andKnowledge Discovery(154篇)、Information Sciences(104篇)、Knowledge and Information Systems(100篇)、Data&Knowledge Engineering(98篇)等期刊排名靠前.同时数据挖掘的研究也常见于International Conference onData Mining、International Conference on Fuzzy Systemsand Knowledge Discovery、International Conference on Ma―chine Learning and Cyberics、IEEE International Con―ference on Systems等会议中.

通过提取题录信息的关 键 词 ,笔者使用Pajek的Kamada―Kawai布局优化算法生成数据挖掘领域的关 键 词 共现网络.共现网络显示数据挖掘的研究覆盖面很广,研究内容丰富,主要集中在以“算法、聚类、关联规则、模型”等关 键 词 为代表的基本理论与方法领域、以“自组织图、决策树、神经网络”等关 键 词 为代表的信息组织领域、以“基因芯片、染色体组、基因表达数”等关 键 词 为代表的生物信息学领域和以“信息检索、网络安全、数据仓库、Web挖掘”等关 键 词 为代表的IT互联网领域.

3 构建科研合作网络

科研合作网是描述科研人员人际关系的网络.网络的节点可以是科研人员、科研机构(包括高校、科研院所或企业的研究部门)、地区或国家等科研实体,如果两个实体共同进行过科研活动(如发表论文、合著专著、申请专利等),则两个节点建立一条边.从整体看这些节点和边构成了一个网络,同绝大多数复杂网络一样,科研合作网络具有网络行为的统计性、节点动力学行为的复杂性、网络连接的稀疏性、连接结构的复杂性、网络的时空演化复杂性等基本特征.尹丽春 等人的研究表明,科研合作网络具有小世界特性,即科研的合作规模很大,但任何两个研究实体却存在着相对短的路径.弱势省区倾向于与强势省区合作,弱势省区之间合作极少,以强强联合或是强弱结合的方式进行科研合作占很大比例,这也对本文考察其他科研实体合作的研究有很大启发意义.

目前,把科研著作的“作者”作为网络的节点进行合著分

关于数据挖掘领域的科研合作网络的硕士论文范文
关于生物信息相关论文范文检索
析的研究较多,合著分析可以看出某一个研究领域内的不同学术团体,进而分析其网络特性和研究内容,如文献[4]和文献[11]的研究结果显示,研究工作者之间形成的科研合作关系网络,也具有类似许多大型合作关系网络数据库所具有的无尺度网络特性.文献[12]把发表论文的“高校”作为节点,通过多角度的计量和网络分析,发现我国“985”高校之间存在着广泛的科研合作关系,高校发文量与其度数中心性存在显著的正相关.类似地,在文献[17]中网络的节点为“省”,文章对省区间的科研合作状态进行了研究;同时文献[5]、[13]、[18]中,都共同地把“国家”作为合作网络的节点,去探究某个领域中,哪些国家处于中心位置,是否存在“中心一边缘”的关系,一个国家最主要的合作伙伴是谁等.可以看出,目前对不同学科领域的科研合作网络的研究成果比较丰富,但是对科研合作网络的分析研究还未能形成系统性的框架,在科研合作中,除了个人、高校、区域这几个科研实体之外,公司企业的合作研究相对不足,对同一研究主题领域下的科研网络进行不同实体的合作网络分析,并做出对比的成果还较少.

下面以高校合作为例对构建科研合作网络的思路做基本阐述,公司合作、国家(或地区)合作也按照相似的思路进行.高校合作层面研究是把高校视为复杂网络的节点,当来自不同高校的作者进行了文献的合著时,视为这几个作者对应的高校也发生了合作关系,即节点之间建立了一条边,当具有一定规模数据时,可以从高校的合作图中发现,在某个领域中不同高校的活跃程度和他们之间建立了怎样的关系,这样的关系和这个领域的特点是否相关.笔者着重考察了每种科研合作网络的点度中心度、介数中心度、接近中心度、密度、最大连通子图、平均度、聚集系数等指标.节点的中心度主要是指节点在网络中所处“中心”位置的情况,只是不同的中心度所强调的侧重点有所不同.网络中一个节点N的点度中心度是指与节点N相连接的边的数量,在合著网络中表现为与其合作发表论文的不同作者的数量,节点N的度值越大就意味着这个节点在某种意义上越重要,它反映了节点的局部中心指数.点度中心度分析节点的影响力,考察其网络的直接社会关系;介数中心度分析节点对网络信息流动的影响;接近中心度考察此节点间接社会关系.最大连通子图是把图的所有结点用最少的边将其连接起来的子图.网络中所有节点度的平均值称为网络的平均度,利用Pajek软件可以很方便地计算出合著关系网络中各节点的度值并对其排序.在特定的社会网络,节点往往形成相对高密度的关系紧密的群体特征,这一特征用聚集系数来衡量.

4 三种类型的科研合作网络分析

4.1 高校科研合作网络分析

通过预处理得到的高校合作网络中有5029个节点,其中包括3357所不同的高校(大学和理工学院),剩余的是和高校共同发表文章的公司或者实验室等.高校合作三次以上的合作网络见图1,每个不同的高校为网络的节点,高校之间产生了合作则建立起一条边,高校合作有几个比较大的合作团体,如以中国科学院为核心的合作团体,以“国立”台湾大学、台湾“国立”交通大学为连接的合作团体等,说明这几个团体的数据挖掘类文章发文量较大、合作较为频繁.高校合作中存在很多的“切点”,一旦阈值增大就会形成多个小的合作团体,比较频繁的合作团体有“布鲁内尔大学(Brunel University)-辉瑞制药公司(Pfizer Inc)-纽约大学(New York University)-纽约医学院(New YorkMedical College)”(这是一个产学研结合非常好的团体,主要研究方向为生物信息学),还有“加拿大卡尔加里大学(University of Calgray)-Firat University-Global University”团体等.

4.1.1 高校合作网络的度值特性表1给出了分别在发文量、点度中心度、介数中心度、接近中心度排名靠前的大学研究机构.通过对比发文量和几个中心性指标,可以看出,不少中国高校的发文量较多,且中国科学院、香港科技大学在网络的连通性中起到了关键作用.在中国高校中,发文量排名靠前的主要有清华大学、浙江大学、武汉大学、哈尔滨工业大学、上海交通大学、华中科技大学等高校.该网络具有较小的平均最短路径4.5,和与相同规模随机网络比较大的聚类系数,具有小世界特性.高校合作网络中,最大连通图占到了整个网络的67%,说明高校之间存在较为广泛的交流.


该文出处:http://www.tjhyzyxy.com/chazhong/379160.html

4.1.2 高校-关 键 词 二维分析 同时,在科研领域特别强调研究的“优先权”,即是否能首先进入某一个新的研究领域具有重大意义.把某个关 键 词 首次出现对应的文献的作者高校,作为这个关 键 词 的属性,进而通过关 键 词 网络,来探寻哪些高校占领了该子领域(即该关 键 词 ),从而分析学术研究的内容分布.笔者针对“大学研究机构一关 键 词 ”两维度分析,对比在数据挖掘领域有较多学术成果的大学研究领域的侧重点.选取了排名靠前的几所大学,即清华大学、美国伊利诺伊大学、香港科技大学、台湾“国立”交通大学、南洋理工大学、美国卡耐基梅隆大学,对其数据挖掘研究内容进行了分析,他们在图2中分别依次对应形状为菱形、正方形、三角形、实心圆形、空心圆形和星形的节点.使用Pajek的remove命令将度值较低的边去掉,并对数据进行了优化,得到了具有高校机构属性的关 键 词 网络(见图2).随后对该关 键 词 网络根据节点的颜色进行拆分,得到了6所大学的单独关 键 词 网络,通过分析得出如下结论:

数据挖掘领域的科研合作网络参考属性评定
有关论文范文主题研究: 关于生物信息的论文范文素材 大学生适用: 本科论文、硕士毕业论文
相关参考文献下载数量: 23 写作解决问题: 写作技巧
毕业论文开题报告: 文献综述、论文摘要 职称论文适用: 核心期刊、职称评副高
所属大学生专业类别: 写作技巧 论文题目推荐度: 经典题目

不同大学对数据挖掘的侧重也有所不同:①清华大学:算法与关联规则、知识发现;②伊利诺伊大学:环境科学数据挖掘(地质气候)、时序数据挖掘、数字图书馆和信息可视化;③香港科技大学:图像数据挖掘、生物信息、推理规则;④台湾“国立”交通大学:数据仓库和决策树、程序优化;⑤南洋理工大学:网络日志挖掘、文本数据挖掘、知识发现;⑥卡耐基梅隆大学:生物信息(蛋白质)、能量系统、聚类和可视化.

根据每个子图,可以大致推断出该大学在数据挖掘领域的研究活跃度.以香港科技大学为例,该大学主要在数据挖掘领域有三个集中研究点,即图像数据挖掘、生物信息和推理规则.从网络的关 键 词 个数可以发现,该大学在图像数据挖掘领域的研究活跃程度要明显高于生物信息和推理规则.

不同大学之间的研究结构有所不同.有些大学研究点比较单一,比如台湾“国立”交通大学;而有些 大学的研究点呈现多样化的特点,如卡耐基梅隆大学.进一步跟踪原始数据可以发现,一般情况下,研究点单一的大学的成果基本来自某个大学的单一团体,而具有多个研究点的大学的著者则可能来自该大学的不同团体或不同院系.

在整体网络中,各个大学的研究点相对整&#

1 2

用于生物信息学的可扩展标记语言

生物信息学课程教学改革与

丙酮醛诱导细胞凋亡相关基因SHMT2L的生物信息学

生物序列比对算法综述

主数据管理在信息化建设中的应用

网络环境下叙词表协同编制系统的构建

数据挖掘博士论文
据资源集技术介绍,基于搜索引擎的网络信息采集,原创信息采集,联机检索,网络数据库信息采集,特种网络文献信息采集,数据与事实型信息采集.,网络信息采集是网络信息利用的基础.通过本课。

北京合作意向书
杏林医学论文网杏林医学论文网,51yixue./,?,1与多个国家级杂志合作,推荐优秀稿件.,?,2医学论文复制率15%,保证原创.,?3不收定金,不讲。学位论文出。

基于sci文合著的国际页岩气科学合作
〔摘 要〕以sci数据库收录的页岩气文献为数据来源,利用社会网络分析方法,对其论文合著进行研究,探讨页岩气研究的国际合作特征.将页岩气领域௚。

电子商务领域
电子商务概论09811011念,理论的成熟性和完整性,同时也强调研究成果的先进性.杜文杰,商学院讲师,主要研究领域为计算机和电子商务应用领域,曾担任过《数据结构》,《程序设。

电子商务发展领域
断提高,3,平台建设富有特色.在商贸流通领域,我市电子商务企业率先借力"三网融合"开展电子商务运营,形成独具特色的"电视+网络"的营销平台,在业界处于领先地位.我市移动电子商务发展。

计算机应用领域
其教学内容不针对某一专业领域,而主。计算机应用基础教学大纲机的发展和应用领域.,了解二进制,十六进制和信息编码的基本概念.,了解计算机系统的组成和典型微型计算机的基本配置.,理解数。

计算机领域核心期刊
分,国家级权威报刊或新闻媒体。计算机核心期刊论文发表目录英美文学或语言学研究等在本学科领域有较大的科研成果,近3-5年内主持或参与(排名第2)过省部级及以上的社科研究项目,在核心期。

电子商务专业领域
*168157网站规划与设计348专业领域课必修4*168023电子商务安全与保密。旅游电子商务11866,旅游电子商务息收集与整理以及建立网络商务环境的策划,实施与开展网络商务活。

学位论文数据
万方学位论文数据资源 6.1会议信息的网络采集,6.2学位论文的网络采集,6.3专利信息的网络采集,6.4科技报告的网络采集,6.5标准信息的网络采集,实训15:会议信息与学位论。

计算机应用领域论文
统(通过广西人事考试。计算机应用论文题目湖北种基于web技术的网络数据库系统的设计[j].计算机应用研究,2000,17(1):84-86.,[2]gregbuczek,mcsd.mc。

数据挖掘领域的科研合作网络 Doc版本