语义出版:数字时代科学交流系统新模型

点赞:11484 浏览:46216 近期更新时间:2024-01-11 作者:网友分享原创网站原创

[摘 要] 语义出版是基于传统互联网技术和语义网技术,结合自然语言处理、本体和信息可视化技术而发展起来的一种新兴出版形态,代表着数字出版的前沿.本文梳理语义出版的多种表现形式,分析其功能特征,进而提出语义出版的DBIU层次模型.最后,本文就语义出版在科学研究范式变革、科学出版商角色转变、科研工作方式、用户“战略阅读”和“宏知识”获取方面的影响和意义进行了深入探讨.

[关 键 词 ] 语义出版 科学交流 义网 “宏知识” 战略阅读

语义出版:数字时代科学交流系统新模型参考属性评定
有关论文范文主题研究: 语义相关论文范文 大学生适用: 学校学生论文、在职论文
相关参考文献下载数量: 26 写作解决问题: 本科论文怎么写
毕业论文开题报告: 论文提纲、论文设计 职称论文适用: 技师论文、中级职称
所属大学生专业类别: 本科论文怎么写 论文题目推荐度: 经典题目

[中图分类号] G237[文献标识码] A[文章编号] 1009-5853(2012) 04-0081-06

1 引 言

1980年代,随着计算机网络应用的普及,科学交流系统发生了巨大变化,先进的信息导航技术,面向特定学科的智能搜索、浏览和分析工具,自动超链接技术,实时数据图表,机器可读的数据对象,结构化的注释以及互操作技术等逐渐浮现[1].1990年代,在互联网技术与现实需求的双重推动下,科学出版发生革命性变革:学术期刊相继在互联网上发布电子版本,并逐渐取代传统的印刷期刊成为科学交流的主流载体[2-3].

进入21世纪后,计算机和互联网的广泛应用在改变科学研究基础架构的同时也带来了科研数据和信息的爆炸式增长.大量结构化、半结构化和非结构化的数字资源充斥科学研究的各个环节,阅读、分析、组织、存储和发布这些数字资源让传统的科学交流系统难以胜任.除此之外,随着跨学科研究的兴起,科研人员在跨域合作研究过程中对数据语义和复杂度的要求也越来越高.面对海量的科研信息以及复杂的情报任务,如何通过自动化和智能化方式辅助科研人员快速发现新知识并进行正确决策,成为当代科学交流系统设计者面临的最严峻挑战.

增加数据和信息之间的关联不仅能够提高数据和信息的获取效率,更能方便用户发现、学习和理解复杂的知识体系.为了应对以上挑战,一线科研人员、科学情报组织、图书馆与学术出版机构不约而同地将目光投向语义信息技术,包括XML语言(XSLT、XQuery、XPath)、语义网(RDF、OWL、SPARQL)和本体技术.基于语义技术的信息发布、集成与交互架构设计逐渐成为科学交流系统发展的前沿.语义出版(Semantic Publishing)作为一种新颖的和对科学交流系统具有颠覆性意义的出版形式日益浮现[4-5].

2. 语义出版的概念与表现形式

2.1 语义出版的概念

期刊出版是科研成果公开发表的首要途径,也是科学研究的重要环节,对于标识科学检测设和科学成果的首发权具有重要意义.期刊出版通常要经过同行评议.这种方式不仅实现了同行交流,更为期刊质量提供了保障.自350年前科学期刊产生以来,其基本形式几乎从未发生过变化,一直都是线性结构,每期包括几篇或十几篇文章,按先后顺序编排.在文章中,作者总是通过各种实验数据、调查资料或逻辑推断证明自己的检测设或观点.文中既有各种图表,又有各种观点汇总和引文线索;既有各种专业基础词汇,又有各种学科的前沿术语.

目前,大多数期刊出版商都提供PDF版本或网页版本的期刊文章.PDF版本的电子文档缺乏详细的语义标注和互动功能,所以主要适合印刷和离线阅读,不便于机器理解和获取其中的数据单元.单篇PDF文档类似于互联网上的数据孤岛,相互之间缺乏必要的丰富的“数据桥梁”,难于实现数据的自动整合、链接和交互性解释.

基于语义技术及其他相关信息技术,通过语义标记丰富期刊文章表现形式及显性内容,提高文章信息可操作性和交互性,增强文章关联度,改进出版流程,实现智能化出版的方式可以称为“语义出版”.语义出版是在传统互联网技术和语义网技术基础上,结合自然语言处理、本体和信息可视化技术发展起来的一种新兴出版形态.早在2001年,蒂姆·伯纳斯-李就指出语义网将有可能用人们无法想象的方式改变科学知识的生产和共享[6].2009年,牛津大学动物学系图像生物信息学研究小组的大卫·香顿(Did Shotton)等人在多项实验基础上首次较系统地提出了语义出版的概念[7].语义出版的目标就是要实现在线文档资源中的数据、信息和知识可以很容易地被发现、抽取、整合与再利用.

2.2 语义出版的功能与表现形式

语义出版的实质是在线信息怎么写作提供商和大型学术出版机构运用语义网的核心思想与相关技术向用户提供科学知识的智能化发布、个性化获取和共享处理机制.目前,这套机制主要包括:基础性的结构化处理、专业本体库的建立、XML标注和开放性的应用接口等.根据这套机制,语义出版主要实现以下功能:


·自动识别文章内的本体,生成携带语义数据的原始文档;

·自动识别文章内的实体,建立与外部资源的链接,为实体增加额外信息;

·通过高亮文本条目、标签树(tag tree)、标签云(tag cloud)等可视化形式勾勒文章结构;

·借助XML语言,提供可操作和可下载的原始数据,如可重排的参考文献列表、交互式图表、XML版文档、关联数据集(linked data set)等;

·运用开放应用程序接口,开展多种类型的信息混合(mushup);

·借助开放链接机制,将文章的参考文献指向文章原文;

·借助浏览器插件,对客户端文本进行语义增强;

·以用户为中心,开展个性化推荐怎么写作;

·借助专用的阅读终端进行智能化阅读.

自2009年以来,Shotton等人针对期刊文章的HTML版本进行了语义增强实验[8-9],Pafilis等人利用文本挖掘技术自动识别HTML文章中的命名实体并给予语义标注[10],Wan等人研究从文章引文处获取情景信息[11],Attwood开发了智能PDF阅读终端Utopia[12], Silvio Peroni与Shotton联合开发了语义出版与参考本体SPAR[13-14].

语义出版作为语义网技术的应用性实践,除了得到学者关注外,还得到许多知名学术出版机构和信息怎么写作商的关注.如英国皇家化学会(RSC)实施了Prospect项目[15],爱思维尔开展了Article of the Future[16]和Pensoft[17]项目,汤森·路透集团提供OpenCalais怎么写作[18],PLoS实施了Semantic Enrichment计划,维基百科使用97种不同的语言为多达350万的条目设置了特征标签和摘 要 ,谷歌也联合微软、雅虎和Yandex推出了网页语义化处理标准[19].