民国文献数字化整理

点赞:32700 浏览:155118 近期更新时间:2024-02-23 作者:网友分享原创网站原创

[摘 要 ]民国文献载体质量较差,和保护措施不力,自然损耗和人为毁坏严重,面临着断层的危机,但是目前社会需求日益增加,因而需要迅速加以抢救、保护和开发利用.中国农业遗产数字化研究所,在普查民国农业文献的基础上,提出并试验民国农业文献数字化整理方案和技术,制订民国农业文献元数据方案、编制分类表和主题词表,建成文献数据库、知识库、主题网关,开展民国文献数据挖掘试验.

[关 键 词 ]民国文献 农业文献 文献数字化 知识组织

[分类号]G353.21

民国文献产生于中国古代文献向现代文献转型的特殊历史阶段,是中国文化典籍的重要组成部分,其文献形态和文献内容都具有重要价值,需要加以保护并开发利用.现实是,多年来民国文献被严重忽视,现状不容乐观.近年来,民国文献的社会需求日益增强,开发利用民国文献越来越受重视.民国文献的、保护和开发利用有着重要意义,需要深入研究.笔者在普查民国农业文献的基础上,提出并实验了民国文献的数字化整理方案和技术,如制订了民国农业文献元数据方案、编制了分类表和主题词表、建成了文献数据库、知识库、主题网关,并开展民国农业文献数据挖掘试验.

1 民国文献保存现状及其数字化进展

1.1民国文献的范畴

关于民国文献的界定,从《民国时期总书目》的收录范围可以受到一定启示.该书目“是一部大型的回溯性书目”,“具有国家书目的性质”,“收录从1911年至1949年9月这一时期我国出版的中文图书”.后来,赵继红、苏品红、王向峰、杨怡等学者对民国文献的定义也进行了探讨.

民国文献范畴的界定存在着狭义和广义的区别.从狭义上来说,仅指1912年至1949年中华民国时期中国国内产生的各种文献,不包括翻印或重印的古籍文献以及国外的文献.从广义上来说,民国文献泛指20世纪上半叶产生的一切有关中国的文献.不仅时限范围更宽,新、旧主义革命的时代应当全部包括在内,且地域广阔,不仅包括国统区,而且解放区、台湾、香港、澳门等地区也包括在内;从文献类型而言,作为近、现代文献类型产生开端时期的标志性文献如我国最早的报纸、期刊等都可以包括在内;从学科内容而言,应当包括标志近、现代科学研究的内容;从语言范围而言,则包括各种语言文字的文献,中文、外文以及少数民族文字等;从国别而言,除包括中国国内产生的一切文献之外,还应当包括这个时期国外产生的有关中国的文献;外国一些在华组织机构研究中国的文献也包括在内,如国外的宗教组织对中国的调查资料,南满洲铁道株式会社的满铁资料等.民国文献形成时间距今最早的已逾百年,最晚的也已达60年.


1.2 民国文献的价值

民国时期是中国历史上东、西方之间,传统与现代之间发生最剧烈冲突的时代,新文化运动发生,西方文化大量传人中国,国民政府倡导新生活运动.这个时期基本可以说是中国现代文明的开端时期,产生了大量中国现代文明的原生成果,其内容丰富,领域广阔.这个时期的历史、文化都凝结在民国文献中传承了下来,民国文献处于古籍文献和现代文献发展的过渡阶段,具有承前启后的历史功用.“民国时期的文献是一批极为重要的文献,其思想文化价值不在善本古籍之下”.

民国文献数字化整理参考属性评定
有关论文范文主题研究: 文献类论文范文 大学生适用: 大学毕业论文、研究生论文
相关参考文献下载数量: 97 写作解决问题: 毕业论文怎么写
毕业论文开题报告: 论文提纲、论文设计 职称论文适用: 期刊发表、高级职称
所属大学生专业类别: 毕业论文怎么写 论文题目推荐度: 优秀选题

1.3 民国文献保存现状

民国文献主要在国家图书馆(约67万册/件)、南京图书馆(约70万册/件)、上海图书馆、重庆图书馆(约10万册)、吉林省图书馆(16万册),另外分散于多家图书馆和档案馆的满铁资料约有40万册/件.因此,估计全国现存民国文献总量有数百万件.由于保存条件落后及纸张老化严重,在上述图书馆的各类馆藏、各历史时期的文献中,民国文献损毁状况最为严重,目前中度以上破损比例已达90%以上,有相当数量的文献甚至一触即破.“如果再不进行抢救,民国文献将在50年到100年内损毁殆尽”!大量的民国档案文献散失于我国台湾地区和日本、美国及欧洲各国;我国一些市县级档案馆、图书馆并不重视民国档案文献的保存,许多史料已严重损毁.政协提案中有人建议在南京建立“中华民国史料馆”,搜集国内及流散海外的大量民国文献史料.因此亟须抢救、保护、开发、利用民国文献.

1.4 民国文献数字化进展

民国文献抢救、保护、整理、利用是多方面的,但是目前既能起到保护价值,又能很好发挥文献功用的方法之一,是尽快进行民国文献数字化整理.当前民国文献数字化的成果主要是数据库建设,建成的数据库大致有以下几种类型:

机读目录.民国文献数字化整理的成果以机读目录为主,包括图书目录和期刊篇名目录.仅上海图书馆的期刊篇名数据库以《全国报刊索引》的方式单独建库.这些机读目录普遍存在着著录格式简单、体例不统一,检索入口少,没有主题目录等问题.

全文图像数据库.

全文数据库.目前仅有少量民国期刊全文库.

专题数据库.民国文献数字化最多的是专题数据库.许多图书馆依托自身的馆藏优势,结合当地的社会需求,建立了各种类型的专题数据库,如南京图书馆开发的“中国近代文献图像数据库”等.专题数据库类型和数量虽多,但是规模都比较小,占民国文献的总体比例不大.

2 民国农业文献调查及其数字化整理方案、整理技术研究

利用已有学术积累和现代信息技术手段,对民国文献进行数字化整理,是一项十分迫切的工作.有鉴于此,国家科技部于2005年立项,由中国农业遗产研究室承担了“社会公益研究”课题,以课题组成员为核心成立了中国农业遗产数字化研究所,系统性地开展民国农业文献数字化整理研究.中国农业遗产数字化研究所在研究农业古籍元数据、分类法、主题词表、知识库、主题网关、数据挖掘的基础上,对民国农业文献进行了系统性的调查,并开展数字化研究,取得了一些相关成果.

2.1 民国农业文献调查

进行民国农业文献数字化整理,需要理清民国农业文献的范围、数量、分布情况,从而有针对性地开展研究工作,概要介绍如下.

2.1.1 会议文献 中华农学会是我国近代的一个农业学术团体,成立于1917年,是现在中国农学会的前身.建国前,它在极其困难的条件下,开展农业教育和科学研究,组织和举办多种形式和多起学术会议,刊印或发表过许多会议文献,这些会议文献是研究民国农业问题的重要资料.

2.1.2 调查资料 民国时期的农业调查报告类资料,有的可能仅是一些原始资料的简单记录,有的则是经过分析研究所形成的研究报告,在此一并将其称为调查资料.在今天可资利用的民国时期农业史研究资料中,数量最大、价值较高的当推这一时期各种各样的农村经济调查报告.这些调查资料之所以重要,是由于它们所采用的经济人类学和社会学等调查方法,科学性较强,调查手段丰富,学术水平很高,与民国之前的 农业调查资料有着质的区别,是研究民国时期农业问题必不可少的第一手资料.

民国农业调查资料,大部分都曾公开出版发表,但是也有许多比较珍贵的资料尚未公开出版发行,未能发挥应用的作用.例如,金陵大学美籍教授卜凯为主要领导的高校农村社会调查,以受过系统培训的大学生为调查人员,调查延续时间长、地域范围广.这些调查资料,大多数是当时的毕业生对家乡的区域调查,都是第一手资料,后来也没有公开过,至今对于研究地方区域文化史、经济史仍然具有重要价值.其他高校也有一些类似的农业调查资料.这些资料目前没有统一的联合目录,有的甚至没有馆藏目录,无法提供开放阅览.日本南满洲铁道株式会社为了侵略目的进行的长期对华调查,形成的调查资料统称为满铁资料,目前留在中国大陆的满铁资料约有40万件,数量巨大,内容丰富,该资料80%以上是日文,散落各地,长期尘封.

2.1.3 图书根据《民国时期总书目》记载,“民国时期从辛亥革命到新中国成立,前后三十八年,出版的书籍据说超过十万种.这十万种以上的书籍合在一起,在各个阶段,从各个方面,如实反映了这三十八年间我国政治、经济、文化、思想的全貌.”据统计和推断,民国时期出版的农业类图书文献应在5 000种左右.

2.1.4期刊《1833-1949全国中文期刊联合目录(增订本)》收录我国解放前出版的期刊有近两万种,其中收录的有关农业类期刊在200种左右,据估计,民国农业类相关期刊约为320种,专业期刊200多种.民国时期农业期刊已经具有了现代印刷型期刊的全部类型,是我国期刊的重要组成部分,是研究民国农业问题和期刊史不可或缺的重要资料.

2.1.5 报纸 民国时期出版的农业类专业报纸种类极少,如《农民报》、《湖北农民报》等不超过10种.这些报纸大多数是不定期出版,或2-3日出版一期,日报种类很少.《湖北农民报》是其中比较有影响的一种.但是在一些综合报纸上,农民、农村、农业等“三农”问题往往作为影响国计民生的重要内容被报道或研究.这些报纸中比较著名的有《民国日报》、《日报》、《申报》、《新闻报》、《大公报》、《时事新报》等.据统计,仅1930-1935年间,这6种大型报纸刊登的农业类文章就多达8000余篇,近1000万字.这些农业报纸文章,是研究民国农业问题的重要文献.

2.1.6 学位论文主要指民国时期的一些农业类院校或综合性高校中的农科专业学生的毕业论文.当时的本科生和硕士生毕业论文要由专门教师指导,毕业论文还要装订成册送交图书馆永久保存.这些学位论文均为手稿,其中有毛笔手写稿、钢笔手写稿、复写纸手写稿、英文打印稿等;从文种来看主要是中文,还有少部分英文稿.

经对这些学位论文的初步调查,发现其中大部分学生后来成为我国农业系统的著名专家教授,对农业发展做出了重要贡献.如著名梅花研究者陈俊渝院士、小麦育种专家刘大钧院士等共有5位院士,数百名著名农业专家教授.农业经济专业的毕业论文多数是学生在导师指导下所做的调查研究,第一手资料占大多数,是我国社会调查起源时期的重要资料,至今仍有重大影响.农业经济类学位论文的内容大部分都没有公开发表过,是珍贵的学术资料,也是研究我国农业教育史和近现代文献史的重要史料.

2.1.7 地方志文献地方文献的主要类型之一是地方志.我国地方志大约有8000余种,其中民国时期编纂各种地方志多达1500余种.地方志的物产部分地域性最强、价值最高.

中国农业遗产研究室,长期致力于中国农业科技古籍和方志物产资料的整理与研究,20世纪50年代曾从全国各地的6000余部地方志中摘抄并整理出“物产”资料,汇编成500余册的《方志物产》抄本资料,按省分册,总计3000余万字.《方志物产》中所收录民国时期所修地方志约占总数的1/4-1/5.该方志资料内容涉及到农业生产的各个方面,而以动植物品种资源和相关的种植饲养技术为主,具有极高的科技、经济史料价值,受到国内外相关学者的高度重视.

2.1.8 档案资料 民国时期的农业档案资料主要来源为:①农业相关政府部门的文件;②农业金融及农业研究机构的有关资料;③农业学会协会的有关资料;④其他非农业机构档案中的有关资料.民国档案资料数量大、种类多、内容杂,目前收集到的约有100万页,极为珍贵.

2.2 民国农业文献数字化整理方案

民国农业文献数字整理既可以采取外包的模式,也可以走自主开发的道路.经过论证,以课题任务为目标,采取了外包与自主开发相结合的方案.

中国农业遗产信息平台(简称平台)建设采取外包方式.在开发过程中,专业人员也始终积极参与平台功能的目标设计.

基于平台自主开发民国农业文献数据库.专业人员依据元数据体系开发了书目型、图像型、全文型、图文对照型等多种类型数据库.

这种外包与自主开发相结合的模式,经实践具有明显的优点:①教研结合;②产学研结合;③节约时间和经费;④任务分解和调整灵活方便.

2.3 民国农业文献数字化整理技术研究

2.3.1 民国农业文献元数据体系的制订 民国农业文献数字化整理需要建设各种类型规范化、结构化的数据库.规范化数据库的结构需要元数据加以描述和限定.以Dublin Core(DC)为依据,根据民国农业文献的类型和特点,对其元数据项给出相应的定义.对元数据自动生成技术和工具进行了比较研究,制订了民国农业文献元数据体系.

2.3.2 民国农业文献分类表的编制分类是存贮、检索文献信息最有效的方法之一.民国农业文献数字化整理时主要依据《中国图书馆图书分类法》进行分类,但对有关类目进行一定的改造.改造分两个方面进行:一方面制定了民国农业文献分类体系;另一方面是编制了基于《中图法》的民国农业文献分类表与其它分类法的映射表.

2.3.3 民国农业文献主题词表的编纂主题法是组织和检索文献信息的又一种重要方法.在概念检索系统中需要主题词表,此外,在检索阶段,主题词表是提高系统检索效率的重要手段.本词表以《农业论文索引》的标题词为基础进行整理而成,按汉语拼音音序排列.《农业论文索引》是万国鼎先生指导、金陵大学农业图书研究部陈祖主编的一部按标题法组织的大型题录,1933年出版,收录1858-1931年中文期刊索引30000余条.《续编》于1935年出版,收录1932-1934年中文索引13800余条.民国农业文献主题词表成为检索和标引民国农业文献的重要语义工具.

2.3.4 民国农业文献电子文档的加工 电子文档加工,是民国农业文献数据库建设工作的基础.它需要把纸质文献加工成电子文档,并对电子文档进行规范化处理,建成数据库.电子文档加工流程包括文献扫描、OCR文字识别、文字输入、文献标引、电子文本制作、文本校对、审核、合成、图文关联关系生成、标引记录加注、入库等环节.

2.3.5 构建民国农业文献知识库在研究知识库构建技术和实用农业古籍知识库构建的基础上,以茶文献为例构建了当时国内第一个民国知识库.民国茶文献知识库分原始文献库、研究文献库和知识元库等,包括民国茶书数据库、民国茶期刊论文数据库、民国茶报纸数据库、民国学位论文中的茶文献数据库、民国茶研究文献数据库、民国茶知识元数据库等.各数据库都包含纯文本文档,也包含不同版本的扫描对照图像,便于专家学者比对利用.研究文献库是将所有类型民国茶研究文献整合到数据库中,实现一站式检索.知识元数据库是指从原始文献库和研究文献库等数据源中抽取各种术语和名物,如:器具名、作物名、地名、人名、书名等,以便建立民国农业文献语义词典.民国知识库的构建为实现民国农业文献数据库系统的后控检索和语义检索奠定了基础.

2.3.6 构建民国农业文献主题网关对主题网关关键技术在民国农业文献数字化整理中的应用进行了研究.主题网关是近年来兴起的一种提供精选优质资源的网络信息导航怎么写作工具.本课题建成的茶主题网关仅收录200余个网站,资源经过精选,网页数量减少,检索效率提高,减轻了用户负担.

2.3.7 民国农业文献内容挖掘 以中国农业遗产研究室编辑的《方志物产》为例,应用模式识别与N-Gram相结合的方法对《方志物产》进行物产和引书两方面的内容挖掘.内容挖掘拓宽了地方文献内容研究的思路,为农业古籍的“辨章学术,考镜源流”提供自动化、智能化的辅助技术手段,有利于专业研究人员深度开发文献内容.

民国农业文献数字化研究取得了一定进展,建成了目前我国包含类型和数量均最多的民国农业文献系列数据库,科学地保存和管理民国农业文献资料及相关研究成果,以文字、图片及图文对照等多种形式,向用户提供信息怎么写作,既保护了民国农业文献,又实现了信息资源共享.