ETL在数字图书馆资源建设用户资源管理中的应用

点赞:32311 浏览:146541 近期更新时间:2024-01-21 作者:网友分享原创网站原创

摘 要 :通过对数字图书馆中ETL在数字资源建设与处理中的应用以及用户资源管理中的应用,阐述了ETL对于数字图书馆的资源整合和资源增值以及怎么写作改善发挥着非常重要的作用.

关 键 词 :数字图书馆;ETL;资源建设;用户资源管理

中图分类号TP39 文献标识码A 文章编号 1674-6708(2012)66-0195-02

当前,数字图书馆建设面对庞大的、多类型、多介质、多格式、多传递渠道的信息资源集合和用户对电子信息资源的多样化、个性化需求,数字图书馆中的信息资源建设必须朝着整合化的方向发展.ETL可以应用在数字图书馆中的数字资源和用户资源建设中,对数字图书馆中不同类型的资源进行整合和集成.

1.ETL在数字资源建设与处理中的应用

1.1 ETL在基于数据仓库的数字资源物理集成中的应用

实现资源整合和集成的方法有多种,既可以是在数据层面上的集成,也可以是在界面上的集成.本文所指的资源整合和集成,主要指的是对异构信息资源实现数据层面的物理整合.也就是根据资源元数据标准建立统一的数据仓库,然后针对各种资源实现不同的元数据增量抽取程序,将元数据汇集到数据仓库中.采用建立本地数据仓库的方法进行整合,可以对整合的结果作更进一步的处理和分析,使更多的工作相对于用户来说可以脱机进行.异构信息资源整合和集成主要包括数字图书馆内部数据源的整合、基于协议的元数据整合、浅层Web信息和深层Web信息的整合等.数据仓库是面向主题的,以整合的方式将内容组织成层次结构,进一步为进行信息挖掘和数据挖掘,提供了一个简洁精炼的操作平台.数据挖掘可以发现、抽取、过滤和评价信息和数字对象以及跟踪和分析用户的访问情况,提供深层次的知识怎么写作.

ETL在数字图书馆资源建设用户资源管理中的应用参考属性评定
有关论文范文主题研究: 关于数据库的论文范文数据库 大学生适用: 在职论文、学院学士论文
相关参考文献下载数量: 53 写作解决问题: 本科论文怎么写
毕业论文开题报告: 文献综述、论文总结 职称论文适用: 期刊目录、中级职称
所属大学生专业类别: 本科论文怎么写 论文题目推荐度: 最新题目

1.2 ETI在引文数据建设中的应用

为了实现不同来源中文献之间的引文链接,在ETL过程中需要解决一些关键问题.文献的引文是由题名、作者、来源期刊、发表年代等字段组成,自动识别这些字段属性对于资源的参考链接怎么写作是非常有用的,因为它们可以用来链接到实际的引文文献中.不同的期刊来源中,引文通常以不同的形式表现的.引文链接一般是采用基于规则的方式,因此抽取和识别引文数据的规则学习尤为重要.

1.3 ETL在知识库构建中的应用

对于数字图书馆中知识库和知识空间的构建,可以通过两种方式来实现:1)以人为中心的知识获取,即通过有经验的专家手工输入知识,这种方式很难形成大规模的知识库;2)以机器为中心的知识获取.在用户的辅助下,利用知识抽取技术等自动生成和推理出知识,实现对数据源的关联和分析.这种方式是当前知识库的主要建设方式.

目前,国外已经有一些研究机构关注利用知识抽取技术来构建知识库和提供知识怎么写作.在知识库的建设中,主要是在ETL过程中融入语义和ontology,抽取出具有语义的信息.

1.4 ETL在数据库内容描述信息生成中的应用

通过ETL可以自动获得数据库的内容描述信息,从数据库的文献中抽取特征词汇,并建立数据库的内容描述模型,用以反映数据源中所包含的文献及其内容、形式等特征,内容描述模型是资源选择的元数据基础,作为检索时的智能选库依据.ETL中随机挑选词汇作为数据源的初始的检索词,构造和发送提问式以及从数据源获取样本文献,并从样本文献中抽取出文献的特征表示,经过多次的循环,建立起数据库资源描述模型,形成数据库的内容描述信息,利用形成的内容描述信息实现数据库的自动选择.可以在ETL过程中运用基于规则的描述、调焦查询探测、基于提问取样等算法,从分布式、隐藏的web资源中抽取能代表其主题或学科覆盖范围的关 键 词 ,动态生成数据库内容描述信息.

在数据库内容描述信息生成的应用中,ETL需要解决的关键问题是形成数据源的描述模型,资源描述模型一般由数据源中所含特征词及其出现频牢、词汇的文献频率、不同词汇的共现概率等信息组成.多次提交检索提问到各数据源,将返回的文献作为样本,通过分析样本文献建立数据源描述模型,以此来描述整个数据源.生成数据源描述模型具体包括:检索提问词的选择,抽取的文献数量,以及取样停止的条件设定等.

2.在用户资源管理中的应用

2.1 ETL在统一认证系统中的应用

随着计算机技术的发展,数字图书馆中采用了越来越多的信息系统.由于种种原因,各个信息系统往往相互独立,在数据和业务逻辑上都存在大量的冗余,为用户和管理员带来诸多的不便.用户身份和权限认证是数字图书馆中很重要的部分,然而不同的信息系统却各自拥有独立的身份和权限认证模块,造成了业务逻辑的重复和数据的冗余,同时也为用户身份信息的统一维护带来一些问题,很难在数字图书馆的怎么写作中真正地实现统一认证怎么写作,因此,在数字图书馆中要实现真正意义的统一认证,前提条件之一就是需要建立统一的用户信息库,同时还要保证用户信息与原来系统中的信息保持同步更新.这些要求可以利用ETL机制来实现,通过ETL来达到用户信息的统一,即生成统一的用户信息库.首先,从不同系统中抽取现有的用户信息,并进行必要的查重处理,一次性地导入认证系统中.然后,进行增量的抽取,同时保证各个系统的相对独立性,解决数字图书馆中的统一认证问题.

2.2面向用户行为的ETL

面向用户行为的ETL是基于用户在研究活动过程中的行为进行相关信息抽取,需要跟踪和记录用户的主要查询和浏览行为,以便提供更适合的怎么写作.

3.结论

ETL原本是为了构建数据仓库而提出的,有其特定的应用环境.而数字图书馆的环境是分布式的,最终目的不只是为了建设数据仓库,更多是需要进行虚拟的集成和整合.两者虽然最终目的和应用场景不同,但ETL的思想和技术可以用来解决数字图书馆资源整合和怎么写作集成的某些问题,在某些应用场景中仅仅依赖于ETL自身的技术是不行的,还必须结合其他的技术和方法来实现数字图书馆中的具体应用.