“全文数字化清代档案文献数据库”的建设

点赞:19391 浏览:84292 近期更新时间:2024-03-04 作者:网友分享原创网站原创

自2001年中国第一历史档案馆利用数字技术进行的明清档案文献信息资源建设以来,以目录数据与原文数字图像挂接为形式的数据库建设取得了很大进展,共生成机读目录条目200万条,原文数字图像500余万幅,使得馆藏朱批奏折、录副奏折、部分题本及专题档案等200万件档案实现了自动检索和局域网在线调阅,大大改善了利用条件,支持了国家纂修清史工程.

但是,已有数字化成果在对档案内容的揭示方面深度不够,不能给读者带来更多便利.另外,一些篇幅巨大的簿册式档案文献,如“上谕档”、《实录》、《会典》、“起居注”等,因记事繁复,内容重要,缺少题名,按其内容逐条著录则工作量极大,故此类档案文献不便采用目录数据与原文数字图像相挂接的形式,因此,如果缺少了全文数字化模式,势必不能满足不同档案文献数字化加工与利用的需求,影响馆藏信息资源组织开发的系统性.自2001年项目提出起,一直努力运作,直至2005年年底终于筹措到“全文数字化清代档案文献数据库”建设的首批启动资金,此时海内外一些文献机构在清代档案文献全文数字化产品的制作上已取得了一定先机.我们根据自身所占有的档案文献信息资源的特殊地位,认真审视了其他文献机构开展清代档案文献全文数字化的思路,并仔细分析了其全文数字化产品的得失,在此基础上与北京书同文数字化技术有限公司合作,进一步完善了“全文数字化清代档案文献数据库”建设的构想,并有计划地予以实施,最终将建成最具规模的具有全文检索功能的清代档案文献专业数据库.

建设思路

根据当前古籍数字化技术水平和馆藏档案文献文本、形制、字体、内容重要程度,以及读者利用需求等多种因素,首先明确“全文数字化清代档案文献数据库”建设的基本思路.

选项范围.入选“全文数字化清代档案文献数据库”建设计划的档案文献,一般应为正楷(印刷体、手写体均可),以易于OCR自动识别技术的应用,减少差错,提高效率,同时,其内容价值决定其在馆藏档案信息资源中占有核心地位,以提高全文数字化经费投入的效益.

计划性.具体项目实施须强调计划性力避盲目,充分照顾阶段性成果间的匹配以提高成果的系统性.例如全文数字化阶段性项目间的匹配:《实录》与《圣训》、“起居注”;全文数字化项目与目录挂接原文图像项目间的匹配:“上谕档”、“随手登记档”与“朱批奏折”、“录副奏折”.如此保证阶段性成果间的内在联系.

成果基本要求.全文数字化各项成果的基本要求是保真、功能完备版本多样.

保真.将原文图像与数字化文本挂接作为基本模式,在保证成果信息完整、正确的基础上,限制数字化文本的差错率在万分之三以内,同时尽可能地争取数字化文本版式、字体、标点接近原文样式,另外为读者提供阅读中的勘误功能使文字识别的差错趋向于零.

功能完备.各项成果须为方便读者阅读提供人性化功能,包括浏览、检索、下载、勘误、笔记、书签以及中西历转换和字典等功能,尽可能地满足读者多样性的阅读习惯和需求.

版本多样.成果宜具备多种版本样式,如单机版、局域网版和互联网版,以满足各类读者群的需要.

实施情况

依据上述基本思路,我们于2005年年底,首选馆藏《实录》、《会典》开启了“全文数字化清代档案文献数据库”的建设工程.

1. 版本调研

通过认真的版本调研,把握可提供进行全文数字化的数种《实录》、《会典》的版本情况.

首先,结合当前相关版本研究的成熟学术观点,确定数字化应用版本.《实录》以馆藏大红绫、小黄绫本为主要版本,并补充少量小红绫本和个别其他文献机构保藏的特殊版本;《会典》以馆藏四朝《会典》为主要版本,其中《康熙朝大清会典》、《雍正朝大清会典》、《嘉庆朝钦定大清会典》及其《会典事例》、《会典图》,经故宫博物院专家协助鉴定为殿本,《光绪朝钦定大清会典》及其《会典事例》、《会典图》,为石印本,《乾隆朝钦定大清会典》及其《会典则例》另选用《四库全书》本.

其次,对选定版本进行详细翻查,对破损页进行登记,用其他文献机构保藏的相同版本进行弥补.对不同版本中可能影响自动识别的一些特殊格式和标记、标点等(如格、批注、贴条、异位标点等)加以记录并研究确定处理方法.

认真的文献调研,不仅为选择版本和预设数字化加工流程、数字化技术参数以及质检步骤提供了切实的依据,而且明确了强化软件功能的具体需求,从而保障了工程各环节的衔接顺畅,为优化成果奠定了基础.

2. 编辑

与版本调研同步,紧紧围绕严谨和方便读者阅读、研究的要求,对目前同类数字化产品的情况进行了研究,本着弘优汰劣的原则完善编辑方案.

如《实录》,以太祖高皇帝至德宗景皇帝十一朝《实录》为主体.同时,考虑到《宣统政纪》与《实录》体例无异,并考虑到《太祖武皇帝实录》(顺治写本)与《太祖高皇帝实录》(雍乾校勘本)的差异,另外,还考虑到《满洲实录》与《实录》体例和纂修程序的不同,且汉文部分又与《太祖武皇帝实录》差异较大,故将此三者附录于后,定名为《大清历朝实录》,以尽可能地维护历朝《实录》的完整,并使读者对不同文本间的差异有所了解,除此以外,针对市场现有同类数字化产品不便浏览的缺陷,编有两套目录浏览模式,一套为原本卷次目录,一套为朝年月时序目录,以方便读者浏览.

又如《会典》,考虑到大清十二帝十三朝编有五部《会典》,分别修于康熙、雍正、乾隆、嘉庆、光绪朝,俱为满、汉文单行本,由于编纂年代不一,典章制度的增损因革以及则例、事例的删繁就简等情况趋于复杂化,而目前著书立说者大凡以光绪朝所修《会典》为本,于研究而言不够严谨.同时在刊布方面,中国大陆和台湾出版的大清《会典》,俱为光绪朝版本,而新近由线装书局出版的《大清五朝会典》,仅收康熙、雍正朝《大清会典》和乾隆、嘉庆、光绪朝《钦定大清会典》及嘉庆、光绪朝《钦定大清会典图》,而缺乾隆朝《钦定大清会典则例》和嘉庆、光绪朝的《钦定大清会典事例》,略去近三分之二的内容.为方便各类学者全面认识清代典章制度的发展变化,支持其清史、法制史研究,我们此次全文数字化囊括了汉文大清五部《会典》的全部内容,定名为《大清五部会典》.同样保持了浏览模式并编有原本卷次目录.

3. 强化保真

保真是数字化档案文献具有权威凭证价值的关键性保障,因此也是我们开展“全文数字化清代档案文献数据库”建设的基本思路之一.在《大清历朝实录》和《大清五部会典》全文数字化工程的实践中,我们对此有了更清晰的认识:首先,原文图像页的价值在于能够如实地保留版本信息和原始的修改、贴补信息,这是数字化文本页所不能准确模拟的.尽管因时间久远造成部分页面字迹不够清晰,使得图像不甚漂亮,但上述信息对于治学严谨的版本学和历史研究学者来说都是有价值的和不容忽视的.另外,数字化文本无论做得多么精细,也很难完全避免人为的差错(最起码读者心理上的芥蒂是固有的),因此,向读者提供版式漂亮且具有全文检索和完善的辅助阅读功能的数字化文本,使读者快速、全面地获得所需信息,并且可以将检索结果所在页面与原文图像页面方便地切换,以便对数字化信息加以核证,从而实现零差错率是非常必要的.其次,数字化文本的制作在版式、用字上也应尽可能地贴近原文形制,特别是用字上,对异体字、通检测字尽量的保持原状,在达到“字字可查,句句可检”的目的的同时,对其时的文字环境、语态等信息也加以忠实地反映.


4. 注重开放平台的搭建

数字化工程的成败在很大程度上取决于数字化平台是否为开放系统,我们经过慎重权衡利弊,我们决定采用基于国际标准化字符集文字平台ISO/IEC 10646:2003之CJK汉字大字符集(中日韩信息技术通用多八位编码字符集)作为文字平台.完全遵循它的体系结构、编码规则、认同规则、代码变换等一系列国际标准.这样处理保证了档案数字化数据的长期可持续利用,很好地维护了档案文献数据库的开放性,保障在多文种电脑系统下顺畅操作运行.

5. 健全功能

在工程实践中我们也清醒地认识到成果具有的方便的应用功能,是得到读者和信息市场认可的前提,为此,经反复论证设计了成果应具备的应用功能:

全文检索:全部数字化内容在保持原文本版面和繁体字原形的基础上,实现“字字可查、句句可检”.

汉字数字化标准:采用ISO/IEC-10646:2003国际标准,可以运行于全球各语言版本的Windows系统.

汉字关联检索:针对国内外不同的读者群(大陆、港澳台、日、韩),不同的语言电脑系统汉字存在同字不同形(图/),以及各种简体、繁体字、通检测字、异体字等复杂关系,采用汉字关联检索技术,在全文检索内置汉字关联,建立简繁、正异、通检测、正讹、避讳字、中日等各种汉字之间的关联,支持在任何电脑系统下输入的汉字均可准确检索到相关内容.

辅助输入:提供内置“巧笔”手写输入,无须任何键盘输入法,可直接用鼠标写汉字.

多目录浏览方式:可直接前后翻页、翻卷.

辅助工具:软件内置联机《康熙字典》、《中西历对照表》,可随时查生字和进行中西历日期转换,同时,用户还可在阅读结果的任意处直接加注笔记,标注书签,标点和勘误等.

6. 数字化工程及软件主要功能

图像修正辅助软件,支持全部扫描图像的端正、去污、修边、合并.

采用网络环境下多工位OCR技术对所有图像页进行流水线式全文数字化处理,电脑自动化识别解决其中90%左右的数字化工作;其后用网络人机交互式图文“列对列”、“字对字”校对,数字化差错率控制在万分之三以内.工程实践证明,这种高科技录校技术最适用于古籍档案文字处理,其效率与质量远远胜过手工录校.

采用基于国际标准化字符集文字平台ISO/IEC 10646:2003之CJK汉字大字符集(中日韩信息技术通用多八位编码字符集)作为文字平台.

全文数字化电子编目及软件功能.支持浏览阅读,从电子目录进入相关内容,可以按页、按卷顺序前后翻阅,可以方便地切换文本页和图像页;支持全文检索,关 键 词 +多条件检索(可选汉字关联).也可从阅读的文本页选任意关 键 词 进行检索;支持范围检索,用户可以在所选当前目录范围内进行检索避免全库检索;支持必备辅助工具:中西历换算、在线字典、书签笔记、手写输入、复制、打印等.

难点及处理办法

保真要求数字化的文本页,尽量保持与原文图像页相同的版式,但馆藏皇家档案文献虽比普通古籍相对规整,却同样存在各式各样的批注文字、文字的修改、插入、删除、圈点等标注.对这些信息的数字化处理,不可能如正文处理那样整齐划一,而是必须仔细辨别处理.这对操作人员的要求提出了较高的要求,需有一定古汉语阅读能力,能够区分哪些是正文,哪些是其他文字,对各种汉字异体字、异写字也要有一定辨识能力.此外,如何方便地将这些正文外特殊内容展现在电脑屏幕上也是非常困难的.

再有异体字的保真与认同问题,为保持档案文献的历史原貌,工程中尽量采用档案汉字原形,但由于历史档案文献的特殊性,即便电脑系统偌大的字符集依旧不可能百分之百地保持原档字迹的真貌.因此,在数字化工程中,只能尽量在电脑系统上展现原档文字字形,不做原档文字修正及简繁转换,尽可能保持与原档字形相同或相近,只做有控制的电脑系统的异体字认同代换(例:户和、即和、和真、和慎、和等不做代换),对于电脑系统以外的字,尽量选用异体字进行代换,代换依据为《汉语大字典异体字表》.至于疑难字(指OCR无法识别的字迹模糊字)与形近字的辨识,疑难字则只能先期单独标注,然后用软件把疑难字所在页提取出来,依据上下文进行人工逐字甄别;形近字如已、己、巳,刺、剌,太、大,汉、汊,傅、,子、予等,也只能根据上下文予以判定.

还有标点处理问题,鉴于原档存在大量圈点符号标注,有些代表某种特定含义,数字化时只能根据这些圈点位置和大小的区别加以区别处理.由于这些圈点散布于文字页各处,且不同于文字有上下文关系,只能通过人工判别标记正确与否,因此所用人工耗时巨大.

更有外国国名的处理问题,由于有清一代尚无统一的外国国名和用字规范,各朝对同一个国家称谓也存在不同叫法,这不仅给中文数字化带来诸多问题,同时对读者检索相关内容也带来诸多不便,如国名用字多在汉字左侧加了偏旁“口”,不少字在电脑系统没有编码,无法数字化,即便有编码,读者使用时也很难输入.

“全文数字化清代档案文献数据库”的建设参考属性评定
有关论文范文主题研究: 关于文献的论文范文集 大学生适用: 硕士论文、电大毕业论文
相关参考文献下载数量: 44 写作解决问题: 学术论文怎么写
毕业论文开题报告: 论文任务书、论文小结 职称论文适用: 职称评定、职称评副高
所属大学生专业类别: 学术论文怎么写 论文题目推荐度: 优质选题

少数民族名称问题亦有歧视性,与外国国名存在类似问题.外国人名多加“口”偏旁;少数民族人名多加“犭”偏旁.解决办法采用对此尽可能利用已有的汉字“正字”替换.

另有绘图和表格中的文字问题,书写有上下竖排顺序,也有左右横排书写顺序,甚至颠倒书写,数字化处理非常困难,目前暂时采用图像方式显示,今后将予以数字化,让此类文字也可参与检索.

结语

通过“全文数字化清代档案文献数据库”第一期工程的实践,制作完成了全文数字化的《大清历朝实录》和《大清五部会典》.其具有的高度保真效果和方便实用的检索和辅助阅读功能,给研究型学者带来了极大的便利.对全文数字化前处理工作的项目设计、版本或文本分析、整理和编辑等工作环节的目的和必要性有了更加深刻的认识,也完善了各环节的工作方法和组织运作模式.此次实践的成果还使我们看到全文数字化档案资源可以非常方便地进行合并、分解、重组,衍生出多种多样的信息产品的潜力,随着该数据库建设的推进,各阶段成果的累积和在同一平台上的整合,这种潜力将会逐步显露出来,从而进一步引发清代档案文献传统开发利用模式的变革.荟

(作者单位:中国第一历史档案馆 100031)