面向外文科技文献信息的知识组织体系建设思路

点赞:29938 浏览:134648 近期更新时间:2024-01-24 作者:网友分享原创网站原创

摘 要:为了实现海量外文科技文献信息的知识组织,促进文献信息内容的知识关联和知识发现,国家科技文献信息中心组织实施了“面向外文科技文献信息的知识组织体系建设和示范应用”国家科技支撑计划项目,提出构建以内容建设为核心,加工协作和开放怎么写作平台为依托,以自动处理智能检索和知识怎么写作应用为基础的知识组织体系建设和示范应用.论文在系统分析现行知识组织建设的4种模式可供借鉴特点,说明了该项目的目标、主要建设内容,最后总结信息组织基础设施建设中的难点.

关 键 词:知识组织体系叙词表本体

中图分类号:G254.0文献标识码:A文章编号:1003-6938(2013)01-0002-06

1导论

信息过载是网络时代面临的一个重要问题.近些年来西方发达国家、组织、企业(如欧盟、美国医学图书馆、联合国粮农组织等)纷纷开展信息组织开放应用的研发项目,来推动信息建设基础平台的创新性实践和技术改善,如美国医学图书馆建设的统一医学语言系统(UnifiedMedicalLanguageSystem,UMLS),谷歌收购了语义搜索公司Metaweb,采用其主打产品Freebase――大规模的开放结构化信息数据库,来推出知识地图怎么写作.我国在“十一五”期间,在国家层面推进了1.7万台大型科学仪器设备(单台套原值50万元以上)、105个野外科学观测研究台站,135万份自然资源实物、970万号标本、4000余种标准物质,22万种科技图书、6万种科技期刊、138万余条标准和技术法规、41万项科技成果信息,以及160TB的科学数据等大量科技资源的整合、开放与共享[1].

面对海量的信息,如何从传统图书馆基于文献知识组织方法,向适应计算机海量信息处理基于概念单元或知识单元方向发展,如何从资源链接的整合,向提供深入知识内容的整合,成为了我国在“十二五”期间信息资源建设的一项重要任务.因此由国家科技文献信息中心牵头,组织实施了国家科技支撑计划“面向外文科技文献信息的知识组织体系建设和示范应用”项目,来构建我国面向外文科技文献的知识组织体系,以支持信息揭示、组织和发现.本文通过知识组织建设模式的现状分析,论述面向外文科技文献信息的知识组织体系建设的目标和主要内容,并对信息组织基础设施建设中存在的难点进行探讨.

2知识组织建设模式分析

通过大量的跟踪调研和凝练,可以把西方发达国家或组织推进知识组织实践应用归纳为四种模式:基于传统知识组织体系关联的语义网络模式、基于传统知识组织体系整合抽取的本体仓库模式、基于语义网的参考网络模式和本体网络模式.

2.1基于传统知识组织体系关联扩展的语义网络模式

UMLS(UnifiedMedicalLanguageSystem)是美国国家医学图书馆建立的关于生物医学和健康的知识组织体系,是基于传统知识组织体系关联扩展建设语义网络模式的典型代表.UMLS共有三个知识源数据库,它们是Metathesaurus、语义网络(SemanticNetwork)和专家词典(SPECIALISTlexicon).Metathesaurus是集成了各种叙词表、分类表、编码集、用于病人护理的可控词汇表、健康怎么写作表、公共健康统计、生物医学文献目录和索引等基础医学、临床医学和健康怎么写作的知识组织体系.Metathesaurus通过概念来组织,其目的是将同一概念的不同名称和形式连接在一起,标识不同概念之间的关系.每个概念都分配了至少一个语义网络的语义类型,这样保证了Metathesaurus中的所有概念在语义网络中相对一致的分类.语义网络的目的是提供Metathesaurus中所有概念的统一分类和一系列概念之间的关系.语义网络由两部分组成:①一组较为宽泛的主题类目,也称语义类型;②一组语义类型之间的关系,或称语义关系.专家词典是NLM建立的三个知识源数据库之一,是UMLS项目的组成部分.专家词典的作用是为自然语言处理系统提供词汇信息.专家词典的词汇包括通用英语词汇和生物医学专业词汇.UMLS试图强大多语言词汇库,用于多种类型的信息系统,如病例、科学文献、指引和公共健康数据,从而在读者查询请求和资源之间建立概念上的关联,在具有相同知识内容的资源之间建立关联.

2.2基于传统知识组织体系整合抽取的本体仓库模式

该模式的典型代表是联合国联农组织发起的FOS项目,旨在通过创建、整合和利用本体,来加强渔业信息系统的信息整合和语义互操作能力.FOS项目整合的资源包括:①OneFish:一个渔业项目的门户,采用等级主题树方式对信息进行组织,大约有超过1800个主题,主题含有简短的摘 要、标识符、相关联的材料,如文件、网站、元数据.②AGROVOC叙词表:包含大约2000个渔业的叙词和16000相关的扩展词.③AA叙词表:超过6000个叙词.④FIGIS:一个整合渔业信息的全球化网络,其采用参考表来组织资源,主要包括水生物种、地理对象、水生资源、海洋渔业、渔业技术,大约有300个顶级概念,向下分成4级,共含有30000个资源对象,并能支持多语种互操作.FOS希望设计出一个全面的本体参考模型,以满足:是(部分是)以领域为基础本体,能分享规范的KOS;足够的灵活性,能在同一背景下包括不同的观点或者视角;聚焦在渔业领域的核心推理框架[2].FOS建立一个多层级的本体仓库来整合资源,主要包括三层内容:

顶层本体或称为基础本体,用来表示通用一般性的概念.FOS采用了WonderWebEuropean项目建立DOCLCE本体模型作为基础,DOCLCE分为三个基本的大类,即:持久性和临时性;品质和品质属性及抽象概念.并采用了乘法的方式来扩展下位类.

核心本体是在顶层本体的基础上,结合本体描述与情景的原理(根据情景的作用、任务、参数、状态来具体化说明)来构建了核心本体.将FOS需要整合的资源按照ODP的本体描述模型转化成术语数据库,提取术语数据库顶层概念,保留TDB框架,专家精简以及采用其他本体设计模型[3].最终,在AA的1600个顶级类、AGROVOC的83个顶级类和FIGIS的约400个顶级类中选取了10%作为核心本体.(4)结合中国科技工作的具体环境与需求,探索实现基于英文超级科技词表网络的中英文混合检索的技术路线,包括在医学领域建设英文规范概念名称汉译名和工程技汉表与英文超级科技词表网络映射关键技术两种方式.

(5)借鉴“本体网络”模式构建本项目的本体层,包括:本体转化、重构、模块化、本体化等的机制、方法和工具模型及4~5个领域本体构建的应用示范.

3STKOS知识组织体系的建设目标

构建“面向外文科技文献的知识组织体系”,开展应用示范的总目标是:采用国际上先进的知识组织技术和方法,借鉴国内外已有的知识组织系统建设成果与应用经验,在“十二五”期间基本建成面向计算机应用的,以面向外文科技文献信息组织为主要应用目标的科技知识组织体系,为我国海量外文科技文献信息的组织和利用提供支撑,实现国家科技文献信息战略资源的有效组织、深度揭示和知识关联,提供知识检索怎么写作,推进基于国家科技文献信息战略资源的知识发现、知识挖掘和知识计算应用示范,整体提升我国科技文献信息机构的知识怎么写作能力.

面向外文科技文献的知识组织体系建设,由知识组织体系内容建设,加工协作平台建设,开放怎么写作平台,自动处理、智能检索的应用,知识怎么写作的应用示范和关键技术研究等六个部分组成(见图1).具体目标是:

(1)构建外文科技知识组织体系.建设具有我国自主知识产权的、有效怎么写作于科技文献组织的科技知识组织体系,重点建成具有一定规模的统一的超级科技词表.超级科技词表预计收集科技词汇素材约1000万条,收录科技术语不少于500万条,科技概念规范名称80万条,其中理学领域科技概念规范名称20万条,工学领域20万条,医学领域30万条,农学领域10万条.

在此基础上,在各学科领域分别选择两个学科方向初步建成领域本体.完成科研本体的总体框架设计、标准规范制定,并开展应用示范.

(2)建立国家科技知识组织体系的可持续发展机制.通过建立STKOS协同工作系统、STKOS的评价体系,以及参建单位、领域专家、知识组织专家的长期稳定的协同工作机制,支持STKOS的持续维护更新,对STKOS的测评和修正,保证STKOS可持续发展.

(3)推进科技知识组织体系的开放怎么写作.支持面向国家科技图书文献中心海量科技文献的规模应用,支持面向全国科技信息怎么写作机构的开放应用怎么写作,支持面向科学研究机构的深层次的科学研究怎么写作,使科技知识组织体系成为支撑国内各类信息机构和科研机构开展知识怎么写作的信息基础设施.

(4)实现海量文献信息的自动处理和智能检索.开发基于科技知识组织体系的海量文献信息自动处理和智能检索系统,实现科技文献信息资源的结构化深度整序,提升我国科技信息资源整体的知识化组织程度,使国家科技文献信息资源得到充分揭示和利用,有效推动国家科技文献战略资源的知识化怎么写作.

(5)开展基于科技知识组织体系的应用示范.有效提高我国科技信息机构在知识发现、科技信息监测、知识结构和知识演化分析、领域学术关系研究、领域态势分析、战略情报研究、决策支持等方面的知识怎么写作能力和水平.

4知识组织体系的建设内容

面向外文科技文献的知识组织体系建设的核心是知识组织体系内容建设,它主要由两个主要部分组成:超级科技词表和本体.超级科技词表是一个融合词表、术语表、叙词表等各种知识组织素材,以科技术语为基本单元,以概念为核心,以来源词表的原有关系为依托,通过概念与来源词表术语进行语义关系的词网络.本体是以STKOS超级词表收集的概念为基础,发展一套根据情景来设计和构建网络本体的方法和工具,将超级科技词表及其他知识组织体系进行本体化表达,形成轻量型本体,建设4~5个面向领域应用的本体网络和1个科研本体知识库,为知识组织体系的语义应用奠定基础.

4.1超级词表建设

超级词表由基础词库、规范概念集和范畴体系三个层次构成,三部分相互依托,构成一个有机的整体.

基础词库是将两部分的内容,一是来自各种词表、术语表,二是来自作者关 键 词和用户检索的关 键 词等,经过对比分析、评价、遴选,作为建立超级词表的来源素材.随后,来源素材经过去重形成基础术语,基础术语再经过词形规范形成规范术语,最后规范术语经词义规范形成基础概念.基础词库处理的关键是:需要将相同含义的不同形式的术语合并成同一概念,同时也要将相同形式不同含义的术语进行区分.因而需要借助词形规范化工具和专家词典,将不同来源的术语进行原型化处理,将完全相同归并在一起.同时需要进行词义鉴别,建立同形异义词典,一个术语经常存在多个词义,基础词库从不同来源获得的术语,同形词可能具有不同的词义,需要按词义进行聚类,将同义词结果分为几个集合,集合内属于同一词义,集合之间属于不同词义,从每个术语的多个词义中,选择其中一个属于自己领域的语义,只保留该语义对应的术语集合.

规范概念集是将基础词库处理后的所有术语,通过学科之间的术语冲突检测,遴选出概念的优选术语,从而形成以概念为基本单元,保留不同来源术语的定义,继承不同来源术语的各种关系的集合.

范畴体系是构建在规范概念集的基础上,通过建立分类框架,对概念进行聚类、分类、浏览,以辅助检索.

4.2本体建设

STKOS本体建设是根据本体建设的目标场景和本体的生命周期,确定本体建设需要路径和活动,来构建相应的工具集以支持本体网络的建设,从而实现创建4个领域本体和1个科研本体及知识库.

NeOn项目设计了9个本体构建场景:从头开始创建;重用和重建非本体资源;重用本体资源;重用和重构本体资源;重用和整合本体资源;重用、整合、重构本体资源;重用本体设计模型;重组本体资源[5].STKOS本体构建主要涉及其中的前3个场景:从零开始创建本体、重建和重构非本体资源、本体资源的重用(见图2).本体生命周期模型是表明本体建设者在本体网络实施过程中需要开展的活动和遵循顺序,主要有两种:瀑布模型和迭代模型.瀑布模型主要应用于建设周期短、需求具体、小而理解充分的领域,它必须按照阶段依次开展相应活动;迭代模型主要应用于需求不完全明确,大型复杂本体的构建过程,它是采用瀑布模型构建单个本体的一组迭代.

由于本体构建的场景不同,所需要的构建阶段也有所不同:从头创建本体需要4个阶段,初始阶段、设计阶段、实施阶段和维护阶段;本体资源的重用分为5个阶段,在初始阶段之后增加了重用阶段;非本体资源的重用和重构,分成了6个阶段,在初始阶段之后增加了重用和重构阶段.本体构建的不同阶段――初始、设计、实施、维护、重用、重构,对应着不同的本体构建活动.

根据STKOS本体构建的场景和生命周期活动,整个本体工具和平台分为3个层次:

(1)本体存储与管理层:存储领域本体、科研本体,并建立本体索引.通过API调用对本体进行访问,并可进行用户管理、多本体管理.

面向外文科技文献信息的知识组织体系建设思路参考属性评定
有关论文范文主题研究: 关于科技文献的论文范本 大学生适用: 学院学士论文、硕士论文
相关参考文献下载数量: 12 写作解决问题: 写作参考
毕业论文开题报告: 标准论文格式、论文选题 职称论文适用: 杂志投稿、职称评副高
所属大学生专业类别: 写作参考 论文题目推荐度: 最新题目

(2)本体工具层:搭建插件运行环境,可加载本体创建、本体查询、本体裁切、非本体资源转换、本体语义丰富、本体合并、本体浏览、本体评估、本体推理等本体工具.

(3)用户界面:根据用户不同的本体构建需求,来组合本体活动和相应的工具,从而实现新建本体、非本体资源转换、现有本体资源复用等.

5STKOS知识组织体系建设中的难点

作为我国外文科技文献知识组织的基础设施,STKOS知识组织体系涉及学科众多、内容庞杂,在构建超级词表和本体建设的过程中,遇到了各种各样的问题,其中主要的难点为:

(1)对概念的规范整理、凝练、范畴归类:要将多来源的词汇,以概念为核心,形成继承来源属性关系的词网络,需要保证以概念汇集的术语规范整理、聚类归类的准确性和一致性,其关系到构建后的超级科技词表对知识资源组织的准确性、可用性,因而如何对来源术语进行规范整理,实现术语的聚类归类、概念关系继承,成为了超级词表构建中的一个难点,需要在现有叙词表标准的基础上设计规范整理规则和数据格式,对术语的相似度计算方法和模型、设计概念同义归并和归类以及概念同形异义区分的方法和算法,从而实现计算机辅助人工处理.


(2)本体构建与应用的结合:随着本体研究的完善,单纯构建一个本体并不困难,但如何将本体构建与应用场景、应用模式相结合,形成可复用的本体资源,能面向应用形成本体,需要深入地探讨.因而将本体构建通过动态建模的方法,以情境分析为基础采取合作方式,来实现本体的重用、重构、映射、关联和模块化,实现非本体的知识组织体系向本体转换构建本体网络,成为了本体构建的难点.