大数据在区域信息查询搜索怎么写作中的应用

点赞:9697 浏览:35763 近期更新时间:2024-02-18 作者:网友分享原创网站原创

十二五期间提出的“3521工程”确定了我国卫生信息化建设路线图,“2”即健康档案和电子病历两大数据库建设.如今,两大数据库建设初现规模,如何有效地管理和利用海量数据成为新的问题.利用大数据技术建立区域信息查询搜索系统,可以解决区域信息平台海量医疗文档的存储及利用问题.

2009年4月,新医改方案公布,把“建立实用共享的医药卫生信息系统”列为“八大支柱”之一,而信息化是重要的技术手段.

卫生部已经编制完成的“十二五”卫生信息化建设工程规划初步确定了我国卫生信息化建设路线图,简称“3521工程”.规划提出建设公共卫生、医疗怎么写作、新农合、基本药物制度和综合管理五大业务管理信息系统以及健康档案和电子病历两个基础数据库,以在全国卫生怎么写作各方面实现精细化、规范化管理.其中,区域信息平台是实现五大业务管理信息系统的核心枢纽.在区域信息平台中,主要存储医疗、公共卫生、妇幼保健、疾病管理、疾病控制等相关领域的文档信息,文档来源为各医疗机构.由于各个医疗机构应用的软件不同,其文档存储除了传统的结构化数据外,还包括大量的非结构化数据和EXCEL、Access、DBF等平面文件型结构化数据,因此,如何将存储、处理和保护海量、复杂数据的成本降至最低,同时还能对此进行实时或准实时处理、秒级查询需求响应以及智能、深入的分析,是一个复杂的问题.


通过基于Hadoop的分布式存储框架和XDS跨机构文档共享机制的区域信息搜索查询系统可以解决这个问题――前者可以解决海量数据存储问题,后者可以解决异构数据存储及关键字智能搜索引擎问题.

具体来说,完成相关标准与规范的区域信息搜索查询系统(如IHEXDS文档存储、Hadoop分布式计算框架等)可以实现:使用非关系性数据库存储多元化医疗文档的功能、基于分布式文件系统海量存储的功能和基于海量数据关键字查找的搜索引擎的功能.

性能卓越的Hadoop

Hadoop是一个能够对海量数据进行分布式处理的软件框架,以可靠、高效、可伸缩的方式处理数据.它依附于社区怎么写作器工作,因此它的成本比较低,主要有以下几个优点:

1.高容错性.它按位存储和处理数据的能力值得信赖,它检测设计算元素和存储会失败,因此会维护多个数据副本,以便针对失败节点重新分配处理;

2.高扩展性.它在可用的计算机集簇间分配数据并完成计算任务,这些集簇可以扩展到数以千计的节点中;

3.高效性.它能在节点间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快.它以并行的方式工作,通过并行处理加快处理速度;

4.可伸缩性.它能处理PB级数据,用户可以在Hadoop上轻松开发和运行可处理海量数据的应用程序.

Hadoop由许多元素构成.其最底部是HDFS,它存储Hadoop集群中所有存储节点上的文件.HDFS的上一层是MapReduce引擎,该引擎由JobTrackers和TaskTrackers组成.

Hadoop最常见的用法之一是Web搜索.虽然它不是惟一的软件框架应用程序,但作为一个并行数据处理引擎,它的表现非常突出.Hadoop最有趣的方面之一是MapandReduce流程,也被称为创建索引,它将Web爬行器检索到的文本Web页面作为输入,并且将这些页面上的单词频率作为报告结果,然后可以在整个Web搜索过程中使用这个结果并从已定义的搜索参数中识别内容.

我们从二医院、社区怎么写作机构和公共卫生机构采集HIS、LIS等文档,通过区域信息交互层的ETL怎么写作器上传到存储层的中间存储库,然后通过数据适配器接口将数据存储到HadoopHBase分布式数据库中.

大数据在区域信息查询搜索怎么写作中的应用参考属性评定
有关论文范文主题研究: 关于数据库的论文范文集 大学生适用: 电大毕业论文、研究生论文
相关参考文献下载数量: 39 写作解决问题: 写作资料
毕业论文开题报告: 标准论文格式、论文目录 职称论文适用: 期刊发表、高级职称
所属大学生专业类别: 写作资料 论文题目推荐度: 最新题目

HBase是一个分布式的、面向列的开源数据库,HBase在Hadoop之上提供了类似于Bigtable的能力,它不同于一般的关系数据库,它是适合于非结构化数据存储的数据库,其模式是基于列的而不是基于行的.

HBase数据库中存储原始文档内容,通过文档转换组件,将个人基本信息及相关的医疗文档存储到主题库及EHR文档存储库,在文档转换的同时,也存储了与文档相关的业务元数据,如文档大小、存储日期、文档类型等.

视图层用户通过浏览器查询及文档,搜索引擎怎么写作器会处理相关查询指令,通过HadoopMapReduce在各存储节点上进行分布式查询,通过Hadoop框架处理后将结果反馈给用户.

整体设计方案

整个平台自下而上由视图层、核心控制层、存储控制层、存储层和接口层五部分组成,下层为上层提供支撑怎么写作,具备数据上传和文档搜索两个功能.

1.数据上传

各个pos点按照平台提供的接口数据标准将数据(结构化数据、半结构化数据或非结构化数据)通过数据适配器接口上传到存储层的中间存储库,中间存储库采用的是传统的关系型数据.数据适配器接口主要负责完成对半结构化数据、非结构化数据和传统关系型数据库向Hbase数据库的转化,同时对EXCEL、Access、DBF等平面文件型的结构化数据进行导入.传入数据的准确性取决于数据内容与系统数据元字典对应的准确性,必要时可进行人工干预.中间库通过调用Hadoop框架HD分布式文件系统提供的接口,将数据从中间存储库保存到Hadoop框架Hbase分布式数据库中.Hbase概要库通过Hadoop框架HIVE数据仓库提供的预处理接口,将和相关医疗文档存储到主题库和EHR文档存储库中.

2.文档搜索

用户通过浏览器输入各种查询条件后请求智能搜索引擎进行搜索,搜索条件可以是搜索或文档搜索,使用者可以对及文档内容进行全文搜索模式查询,文档内容查询可以通过文档类型和卫生怎么写作时间进行交叉索引查询,所有的查询结果会通过浏览器显示.预处理搜索指令:接收到用户查询指令后,智能搜索引擎将分析用户输入的内容,判断用户搜索的方式(文档关键字搜索/个人基本信息搜索),并根据Hadoop框架提供的MapReduce接口发出相关的查询指令.

多任务处理:MapReduce是由Google公司的JeffreyDean和SanjayGhemawat开发的一个针对大规模群组中的海量数据处理的分布式编程模型.通过MapReduce接口用户查询指令会被分解为多个查询子任务,以支持多节点、多任务的海量数据查询.多个子任务处理结束后,MapReduce接口会自动将各个子任务的结果返回并合成一个查询结果.

查询文档注册库:IHEXDS集成方案(TheCross-EnterpriseDocumentSharingIntegrationProfile)提出了多个医疗信息系统共享临床文档的技术规范和临床文档注册、分布式访问患者医疗文档信息的基本架构,引入了文档存储数据库(DocumentRepository)和临床文档注册器(DocumentRegistry)概念,解决了不同医院临床病人医疗文档信息共享的需求.其主要组成部分的功能为:文档存储数据库负责存储需要共享的临床文档描述,并预存相应文档的检索条件;文档注册器负责存储相关文档信息,以便临床医疗中能快速找到相应文档.XDS规范是以临床文档为描述单元的、适用于任何类型任何系统电子病历系统的文档信息集成.

用户可以通过存储日期、文档类型等业务元数据在文档注册库中进行查询.由于文档注册库采用的是Hadoop框架Hbase数据库存储,利用Hbase多维信息存储机制,可以进行快速索引定位及分布式多任务海量数据查询.

查询个人基本信息及文档:针对存储区域的大量数据,本探索方案采用分布式存储方式(HDFS)存储数据,采用冗余存储方式(即为同一份数据存储多个副本)保证存储数据的可靠性.

云存储技术是在软件架构基础设施之上建立的存储怎么写作.采用NoSQLHabse分布式数据库存储文档相关索引信息,用于存储结构化、非结构化和半结构化数据,具备高性能、高可用性等特性,一般按照维度划分创建概要信息,如以市民信息为基准,建立健康档案、影像、预约、提示等常用信息条目,以便直接获取某市民的主要健康信息.分布式缓存技术(如MemCached)的构建,用于提供非持久化临时数据的存储,从核心业务库和概要库获取的数据可以缓存下来留作后续直接使用.

区域信息搜索系统能够解决区域信息平台海量多元化医疗文档的存储及海量数据的查询问题,基于Hadoop开源框架技术架构的系统具有一定的实用性,经过试用达到了系统设计要求和最初设计目的.