生物医学关联数据进展与比较

点赞:33104 浏览:155009 近期更新时间:2024-01-02 作者:网友分享原创网站原创

[摘 要]首先介绍当前生物医学领域在数据资源集成与共享方面的发展需求,认为当前语义Web的主要技术之一――关联数据为生物医学发展带来重要的机遇,然后对生物医学领域关联数据基础研究、建设以及应用研究情况进行详细分析,进一步对典型生物医学关联数据进行具体特性方面的比较分析,指出当前发展面临的困难和问题,并提出今后发展的方向.

[关 键 词]语义Web 关联数据 生物医学 映射 比较分析

[分类号]G250

1 背景

近年来,随着生物医学的不断演进和人类对该领域的不断探索,生物医学领域积累了大量的数据、信息和知识,这些知识内容可能存储于相同组织的相同数据源,也可能存储在不同组织的异构数据源中,如分布在科学文献、Web页面、专利、电子病例、各种同构或异构数据库等不同形式的载体中,其数据类型丰富多样,数据规模庞大,分布也十分广泛.大多数情况下,它们的存储地点以及存储方式都是不同的,但它们之间很可能存在着关联,例如:EntrezGene上的某个基因可能与CMIM上的某个疾病存在关联.与此同时,为了支持研究实验和科学决策,生物医学研究者们需要便捷地获取尽可能完备的相关数据.然而,由于许多数据分散存储在相对独立的模式下,导致了在异构环境下,研究者们难以发现和正确使用他们感兴趣的信息.“跨库”或者“跨平台”的一站式访问过程还未达到一种理想的自动化集成效果,因此,迫切需要有一种方法可以集成这些来自多方的数据和资源.

为了实现这一目标,人们对生物医学数据共享领域进行了多年研究和实践尝试,试图将基因、蛋白质、通路、疾病和化合物等数据有效地集成并且提供给研究者们随时获取.然而,相关的研究面临诸多困难,如数据拥有不同的识别框架、不一致的术语表达,多种不同的数据格式和下层数据存储模型设计困难等.随着语义Web技术的发展,生物医学领域的研究者和研究机构开始探索语义Web技术在此方面的可行性,关联数据(linkeddata)成为近年来的一种重要实践方法.关联数据致力于将这些不同的数据关联起来,连接大量的知识内容中蕴含着知识节点间的联系,并通过Web发布共享.通过关联数据集成大规模的生物医学数据有助于资源的集成与共享,同时关联数据创建的知识内容之间的语义关联也有助于人们对其进行深入的分析和探索.

2 关联数据及其对生物医学发展的意义

继多年的语义Web研究探索之后,近年来,关联数据被认为是一系列利用Web在不同数据源之间创建语义关联、集成、共享、互联,发布数据、信息和知识的最佳实践方法.鉴于生物医学知识内容的相对完整性、规范性和关联性,以及生物医学研究和发展过程中对多角度知识关联构建的迫切需求,生物医学领域成为目前语义Web技术应用规模最大、关联数据技术探索最为活跃的领域之一.

2.1 关联数据的目的、定义和原则

关联数据最早是在2007年5月,由ChrisBizer和RichardCyganiak向W3cSWEO提交的一个项目申请(LinkingOpenData项目)①中提出来的,其宗旨在于号召人们将现有数据发布成关联数据,并将不同数据源互联起来,目的是构建一张计算机能理解的语义数据网络,而不仅仅是人能理解的文档网络,以便于在此之上构建更智能的应用.相比现在的文档网络,语义数据网络提供的关联不但更加丰富,而且具有语义.在用关联数据创建的语义数据网络上,使用者可以自由地从一个数据集跳转到其他数据集,快速地获取他们感兴趣的信息.

关联数据是万维网的发明人TimBerners-Lee提出的一种万维网上发布数据的方式,可以看成语义Web的一种实现方式.它一般要求采用RDF数据模型,利用URI(统一资源标识符)命名数据实体,发布和部署实例数据和类数据,从而可以通过HTTP协议揭示并获取这些数据.可见,关联数据的基本原则是采用RDF数据模型将结构化的数据发布到Web上,并采用RDF链接将不同的数据源内部关联起来.具体在实践中,Berners-Lee指出关联数据有4个原则必须遵守:①使用URI作为任何事物的标识名称;②使用HTTPURI使任何人都可以访问这些标识名称;③当有人访问某个标识名称时,提供有用的信息;④尽可能提供相关的URI,以使人们可以发现更多的事物.

2.2 关联数据为生物医学发展带来的机遇

2.2.1 为生物医学资源整合提供新的途径 当前生物医学领域已有大量的数据库可供使用,如美国的Pubmed、Genbank、PIR、SWISS2PORT、PDB和美国NCBI的EntreySequences,欧洲的EMBL,日本的DDBJ等.除这些大型数据库以外,还有相对较小的专门性数据库,如GenProEc.从大量的数据库来看,生物医学领域资源整合的巨大规模及复杂程度是可以预见的.在当前生物医学信息资源整合的过程中,存在大量的困难和障碍,如不同的系统获取资源的途径不同,资源格式也不尽相同,各系统分别采用不同的术语规范和不同的搜索策略,返回不同的结果形式等,这些均构成了当前异构生物医学信息资源系统整合的困难.关联数据为生物医学信息资源的整合提供了一种可行的途径.关联数据通常采用RDF语言进行描述,RDF描述的数据模型可以有效地支持不同来源数据、信息和概念的集成,例如将文献、蛋白质、疾病、人或机构进行描述和关联.关联数据为这一构想提供了实现的方案,即通过关联数据将各种数据源无缝地关联起来,成为一个广域分布的数据库.

2.2.2 为生物医学知识发现带来新的机遇 生物医学领域的知识发现主要基于海量的科学数据进行数据分析,目的是发现序列的差异、识别新的基因,分析DNA序列、蛋白质结构、分子结构等.传统的生命科学知识发现主要基于对数据和文本的挖掘开展,多年来KDD和文本挖掘的一系列技术进展不断推进着知识发现的研究和应用,包括统计分析、模式识别、趋势预测、实体抽取、关系识别等.然而,基于统计和挖掘的方法存在着固有的缺陷,如计算复杂度高、结果准确性差等,需要从新的途径改善知识发现的效果.近年来语义技术的发展为知识发现方法开辟了新的途径,语义相关的一系列技术使知识的表达、存储、组织和利用发生了重大转变,其中,关联数据是近年来在实践中最为可行的一种方法.遵循关联数据的原则,生命科学对象在细粒度层次被进一步组织起来,通过RDF结构构建实体或概念之间的关联,从而为发现异构数据库之间的联系和隐含知识提供了一种途径.

2.2.3 促进生物医学知识共享与发布 语义Web提出的重要理念之一就是实现资源的共享和重用,关联数据的相关技术为这一理念的实践开拓了道路.关联数据使用Web来互联相关的数据,降低分散数据之间连接的壁垒.然而将现有数据发布为关联数据并互连起来支持共享还是一件困难的事情,因为实际上大量已存在的数据并不满足关联数据的4项原则,于是关联数据的研究者们便开发了一系列实用的工具,来帮助完成传统数据向关联数据的转换.D2R便是其中一个非常流行的工具,它可以将关系型数据库发布为关联数据.另外,国外面向生物医学领域应用的关联数据开发取得了快速的发展和成果,如加拿大的生物医学知识融汇项目Bi02RDF,此外,还有欧洲的生物医学领域语义集成知识平台LinkedLifeData,这些数据均被发布在Web上供生物医学领域科学研究和应用的共享.

3 当前生物医学关联数据研究进展

3.1 生物医学关联数据基础研究与建设情况

生物医学关联数据基础研究与建设情况主要探讨关联数据在生物医学领域的研究内容和建设成果等方面,即从研究与开发情况的视角来看,目前生物医学关联数据包含哪些研究项目,采用了哪些构建工具和构建方法等.

3.1.1 面向特定应用的关联数据 针对特定应用目标,选择有限个领域数据集进行集成,并建立数据集之间的映射,将组织后的关联数据联合发布,该形式的关联数据强调构建准确的数据集关系,为特定的应用怎么写作.有代表性的如印第安纳大学的BinChen和XiaoDong等开发了Chem2Bi02RDF系统,W3C语义网医疗健康与生命科学研究组HCLSIG(SemanticWebHealthCareandLifeSciencesInterestGroup)开发的LODD(LinkingOpenDrugData)项目.

Chem2Bi02RDF.Chem2Bi02RDF系统集成了化学、生物、药物领域的数据集,构建成为面向生物化学知识发现的关联数据,其面向的应用主要是支持两个实体或概念之间的路径发现和数据挖掘.认为一对实体或概念在不同的环境下通过不同的链接路径相连通,分别承载了不同的解释和含义.Chem2Bi02RDF集成的数据集有PubChemCompound、PubChemBioassay、ChEBI、KEGG、CTD、BindingDB、PharmGKB、DrugBank、PublieQSAR、MATADOR、UNIPORT、HPRD、Reactome、DIP、OMIM、SIDER和PubMed.采用D2R将上述数据集进行RDF格式转化,并构建其之间的关联.

LODD(LinkingOpenDrugData).LODD就是一个用于药物发现的关联数据,该项目集成了来自多方面的药物信息,从药物对基因表达的影响到对临床试验结果的影响,包括大量的药物、临床、疾病以及制药企业相关的数据集,所有这些数据被转换成RDF格式并发布在RDF存储怎么写作器上.LODD要解决的关键问题就是构建不同来源数据之间的关联,以实现科学研究以及解决药物相关问题.LODD发布成关联数据的数据集有:DrugBank、LinkedCT、DailyMed、DBpedia、Diseasome、RDF-TCM、RxNorn、SIDER、STITCH、Medicare、ChEMBL、WHOGlobalHealthObservatory、UnivemitvofPittsburghNLPRepository等,迄今为止,数据集一共包含800万个以上的RDF三元组,内部构建了370000个以上的RDF连接.目前还有一些相关的数据集,如ChemBlast、OMIM等,正在逐步被集成到该项目中.


3.1.2 基于领域大规模数据集关联的关联数据 在越来越多的生物医学数据集关联数据化的基础上,面向生物医学领域大规模的关联数据也取得了快速的发展,领域大规模数据集集成,将领域中尽量多的数据集联合发布,并建立数据集之间的映射,强调数据集和三元组的规模数量.领域大规模数据集集成形成了真正的生物医学WebofData,如GenomeCanada/GenomeQu6bec资助的生物医学知识融汇项目Bi02RDF,此外,还有OntoText公司与LarKC项目合作开发的生物医学领域语义集成知识平台LinkedLifeData以及W3C的LinkingOpenData项目中的生命科学部分.

Bio2RDF项目.Bio2RDF是一个大规模、分布式生物医学知识库,集成了40多种生物医学信息资源,如GeneOntology、OMIM、PubMed、GeneID、UniProt等.Bio2RDF将这些异构的数据库资源统一转化成RDF三元组的形式,每一个陈述(statement)都由一组三元组构成,共包含大约50亿个三元组,并对其建立了索引.这些异构的数据资源经过Bio2RDF转换后进行集成,通过本体映射技术,Bio2RDF搭建起了异构资源之间的链接,并在Web上统一发布.经Bi02RDF转换并集成的生物医学资源及其Triples和SPARQL访问接口见图1.

LinkedLifeData项目.LinkedLifeData集成了25种生物医学数据资源,共包含40多亿个三元组,是一个支持异构数据操作的平台,支持数据间的语义集成,同时提供知识访问和管理工具,完全支持W3C的标准和推荐.集成的数据均采用RDF数据模型,知识内容涵盖基因、蛋白质、通路、靶标、疾病、药物、患者等.LinkedLifeData开发的一个重要目标就是在集成的数据集上进行推理,同时避免数据冗余,并能够推荐新的链接关系,或在已知数据集上推导出潜在的知识.支持大规模数据集的应用也是LinkedLifeData项目的目标之一,其所集成的生物医学资源包括DiseaseOntology、EntrezGene、linkedCT、PubMed、UMLS等,部分资源如图2所示:

LinkingOpenData(LOD)项目的生命科学部分.LinkingOpenData项目自2007年提出以来,在过去几年中,越来越多的数据提供者和Web应用开发者将他们各自的数据发布到Web上,并且与其他数据源关联在一起,形成一个巨大的数据Web.截至最新数据发布时间2010年9月,已发布的关联数据规模为28562478988个RDF三元组以及395756083个RDF关联关系.其中,生命科学是重要的组成部分,共包含42个数据集,2664119184个RDF三元组以及200417873个RDF关联关系.观察这42个数据集发现,生物医学领域核心的数据集大多已按照关联数据4原则进行转换,并发布于Web上,支持访问和共享.这些数据集有GeneOntology、HomoloGene、KEGGCompound、KEGGDrug、KEGGGlycan、KEGGPathway、KEGGReaction、PubMed、UniProtKB、Bi02Chem2RDF等.目前LOD项目的生命科学部分大部分来自Bi02RDF、LODD和Neuroeommons,也包含一些个人和组织提交的资源,如图3所示:

3.2 生物医学关联数据应用研究进展

生物医学关联数据应用研究进展主要探讨关联数据在生物医学领域的应用方向和研究案例,本文归纳的主要应用方向有知识发现、语义标注等,其他方向的应用正在逐步推进中.

3.2.1 知识发现在生物医学领域,关联数据为知识发现的研究提供了更大的空间.基于Chem2Bi02RDF,BinChen等研究者以老年痴呆症为目标,实验发现所有的“化学制品一疾病”关联,作为实例层的关系,共发现81077种不同的化学制品和老年痴呆症有关系,其中410个通过特定基因建立桥接.如美国马里兰大学和委内瑞拉西蒙玻利瓦尔大学的Mar'la-EstherVidal和LouiqaRaschid等共同开发的BioN,是一套从关联数据云图中发现潜在语义链接的框架和系统,BioN基于本体技术,可以有效地发现药物和疾病之间的潜在的、新颖的关系.BioN通过探索大规模的关联数据云图并采用本体和现有的排名技术,对返回的链接进行分析,获取排名靠前的链接.实验证实BioN可以发现大部分的有效关系.

3.2.2 语义标注 随着越来越多的资源被发布成关联数据,关联数据在文本语义标注方面的应用效果也逐渐显现.生物医学领域中典型的应用如OntoText实验室的LifeSKiM项目,用LinkedLifeData对Medline中的文献进行标注,由于LinkedLifeData中集成了大规模的生物医学数据集,并构建了其间的关系,在对文本进行分词、句法识别、词性标注,规范化等处理之后,大量的实体关系可以清晰地识别出来,LifeSKIM项目就采用Entrez-Gene中的实体识别基因名称,采用NCBITaxonomy中的实体识别人体组织成分,采用SNOMED中的实体识别疾病,采用DrugBank中的实体识别药物成分等.经过实验,LifeSKIM在处理的1204063篇Medline摘 要中,标注了10884032个实体和40510个实体间的关系.

此外,关联数据还不断在问题回答系统和事件数据管理中得到应用,如SemanticCrunchBaseTwitterBot、DBpediamobile、EventDataManagementlOpenLinkgCalendar等,但这些应用目前在生物医学领域中却还少有尝试.相信下一步在生物医学领域中,关联数据的应用会更加广泛.

4 典型生物医学关联数据比较分析

4.1 数据规模与发布情况比较分析

对上述典型的生物医学关联数据进行分析,从其数据源数量、资源规模、外链数、浏览方式、查询方式和下载方式等方面进行数据规模和发布情况的分析和比较,分析的对象主要有Bio2RDF、LinkedLifeData(简称LLD)、LOD的生命科学部分(简称LOD-Life)、Chem2Bio2RDF和LODD,如表1所示:

从表1的分析情况可以看出,生物医学领域的关联数据集成数据规模普遍较大,映射关系也较多,提供访问和下载的途径也较为完备,是关联数据实践发展较好的一个领域.

4.2 实施策略比较分析

除了以上数据规模与发布情况比较分析,本文通过对大量文献和数据的调研认为,目前在实施策略方面,这些生物医学领域关联数据分别采用了不同的解决方案,主要体现在:

4.2.省略/pdb:1GOF;LinkedLifeData对所有资源进行了统一命名,采用以下命名空间,如来自Entrezgene数据库的tumorproteinp53表示为:http://linkedlifedata.省略/drugbank/resouree/drugbank_din/DB00001;LODD则保留了各自数据源的命名空间.

4.2.2 映射机制Bio2RDF的映射原理简单,就是通过查找相同字符串,找到在不同数据来源中的相同实例,将它们关联起来;LinkedLifeData在映射方面采用了多样复杂的方法,分别有命名空间映射、基于参考节点的映射、标识符匹配、取回参考值、传递链接、语义标注等方法;LOD-Life中不同数据源之间的链接通过关联数据发布者来提供,数据集被吸纳为LOD的条件之一就是考量其外链数(outlinks),达到一定数量外链数的数据集才会被考虑;Chem2Bio2RDF的映射方法是以化学基因组学相关的概念为相似度检测,搭建生物类数据源和化学类数据源之间的链接;LODD中不同数据源之间的链接则通过语义链接发现方法来实现,采用了LinQuer工具和SILK链接发现框架中的方法来计算不同数据源中概念之间的语义距离,通过一个相似度的值发现概念之间的链接.

综上所述,当前的关联数据都在试图整合越来越多的资源,同时构建精细准确的链接关系,并以Web可获取的方式发布与访问,也提供用户的下载和应用.尽管这些研究中存在一定的重复整合,但从发展趋势上看,一些机构的研究成果被吸纳到其他项目的后续研究中,如Bio2RDF、LODD、Chem2Bio2RDF均为LODLife贡献了重要力量,Chem2Bio2RDF与Bio2RDF还进行了大量外部映射,随着LOD―Life的不断发展,Bio2RDF的大量成果被吸纳改进,Bio2RDF在形式上正逐渐退出业界,但它在早期的研究积累和成果却是毋庸置疑的.从目前的发展情况来看,最活跃且最具有长期生命力的项目是LOD-Life,众多的局部项目成果都将吸纳到集中式的LOD中去,这样的滚雪球式的发展模式无疑推动了规模更大、质量更高的关联数据的构建和发布,这也与LOD提出的共享与重用理念相吻合.

生物医学关联数据进展与比较参考属性评定
有关论文范文主题研究: 关于生物医学的论文范本 大学生适用: 在职研究生论文、学校学生论文
相关参考文献下载数量: 77 写作解决问题: 如何怎么撰写
毕业论文开题报告: 标准论文格式、论文小结 职称论文适用: 杂志投稿、中级职称
所属大学生专业类别: 如何怎么撰写 论文题目推荐度: 免费选题

5 面临的困难和问题

当前关联数据在生物医学领域中的广泛应用仍面临困难,主要困难就是概念和术语的标准化以及异构资源之间的准确映射,这也是今后发展需要重点解决的问题.

5.1 概念和术语的标准化是迫切需要解决的问题

概念和术语的标准化是大规模关联数据应用的前提和关键,统一的表达形式有助于更大范围内技术、资源等方面的交流和共享,特别是在生物医学这样一个相对更加严格和复杂的学科领域,标准化更是一个迫切需要解决的问题.无论是在传统知识组织体系,如主题词表、分类词表中,还是在新兴的本体乃至语义Web当中,概念和术语都是最基本的重要知识单元,是最基本的外在表示形式.一些相关的研究已经开展,如GeneOntology作为特定医学领域的本体系统应用在了基因领域的诸多实践中,借助于本体技术,GeneOntology成功地解决了以往生物信息领域分散在不同数据库中不同术语表达的问题.然而,还有更广泛的生物医学领域存在着大量隶属于不同系统中的生物医学概念、医学术语,需要对其进行提取、转换、规范化和有序化,迫切需要解决生物医学概念和术语的歧义表达和不一致性问题,这是进一步解决关联数据集成与发布、知识共享和机器统一查找问题的基础.

5.2 异构资源之间的映射问题

生物医学领域中存在许多数据集和本体,但由于编码格式、不同机构与编制者专业知识认知差异、语义粒度、语种与术语差异等多方面因素导致数据集之间普遍存在异构现象.为了生成和发布LinkedData,解决异构资源映射问题,实现语义互操作是关键.关联数据中的关联基本原理是借由RDF三元组的每个位置以无限制方式实现开放语义关联,最具代表性的以DBpedia为中轴的数据集,主要是对实例(instances)采用owl:sameAs实现关联,这也是目前最常见的关联方式.生物医学领域,例如MG数据库和EntrezGene通过Bio2RDF被表达为RDF三元组并发布为关联数据,这两个数据来源之间的联合使用Bio2RDF:xGeneID来实现集成.目前的普遍做法虽然明确了实例间的关系,但它们对应的概念之间尚未被有效关联和集成,即未深入到本体语义层面.

6 总结

关联数据为生物医学领域描绘了一幅美好的知识共享与重用愿景,当前的关联数据研究与实践更为我们打下了应用的基础.本文以生物医学关联数据作为分析对象,探讨了当前生物医学关联数据的研究进展,从面向特定应用的Chem2Bi02RDF、LODD项目到面向领域大规模的Bio2RDF、LinkedLifeData、LOD-Life项目,分析了其研究建设与应用情况,并继续对这些典型生物医学关联数据进行了多方面比较与分析,从而发现它们的特点和优势,以便于将其中有价值的方法应用到后续的研究中去.虽然生物医学关联数据近年来成果显著,但这并不意味着关联数据的发展就没有困难,当前的研究成果还仅限于实验水平,离应用这个目标还有很长一段距离,这需要我们针对当前的发展困难持续不断地研究和探索.