基于DDC的《英文超级科技词表》范畴体系构建

点赞:24385 浏览:108193 近期更新时间:2024-03-26 作者:网友分享原创网站原创

摘 要:《英文超级科技词表》是一个包含4层结构的知识组织系统,范畴体系为其顶层结构,起到类聚概念和表达词表宏观知识结构的作用.工程技术为例,研究基于DDC构建《英文超级科技词表》范畴体系的方法.首先分析DDC类目体系的结构特征,针对DDC类目层级过深、重要学科类目得不到突出显示的问题提出重构类目导航体系的方法.然后对工程技术相关类目进行深入分析,参考《中国图书馆分类法》、E1分类表进行学科类目重组,提取工程技术基本学科24个,并确定各学科的基本构成类目.最后提出对各学科细分类目进行梳理的原则.

关 键 词:范畴体系构建 DDC《中国图书馆分类法》 E1分类表 类目映射

分类号:G254.12

1、项目背景及《英文超级科技词表》逻辑结构

《英文超级科技词表》(以下简称《英表》)是“十二五”国家科技支撑计划项目“面向外文科技文献信息的知识组织体系建设与应用示范”的主要研制内容之一.目标是建设覆盖理、工、农、医四大领域的、面向英文科技文献信息组织与检索的一部大型综合词表.该项目由国家科技图书文献中心(NSTL)牵头,多家情报机构分工协作,计划三年内完成.

《英表》并非传统意义上的叙词表,从逻辑结构上看,它是一个包含4层结构的知识组织系统,自下而上依次为:词汇素材、基础词库、概念网络、范畴体系,如图1所示:

词汇素材层是按照素材采集标准筛选出的各类词汇集,包括相关专业的叙词表、专业词典、术语集、文献关 键 词等,叙词表是其核心构成部分.基础词库是将不同来源异构的词汇集按一定规范进行描述,并采用统一格式进行存储而形成的词汇元数据仓储.对基础词库中的词汇进行同义词归并,形成以概念为单位的同义词群,概念继承各同义词原有关系,由此形成相互关联的概念网络.《英表》对概念间关系不做梳理,因此形成的概念网络实际上是一个无序网络,没有清晰的等级结构.

为了能在一定程度上表现《英表》知识体系的等级结构,《英表》在概念网络层上设置了范畴体系.范畴体系为概念提供了分类框架,概念在统一的分类框架下归属到相关类目,按学科特征得以聚集,并借助范畴体系的等级结构由一般到具体层层展开.范畴体系是对《英表》主题概念进行组织的工具,可在一定程度上弥补概念网络在宏观知识结构表达上的不足.

2、《英表》范畴体系的功能定位及构建原则

范畴表是叙词表的基本构成部分之一,范畴体系的构建在叙词表编制工作中意义重大.在叙词表构建之初,范畴体系可起到控制词汇采集的学科范围和各学科词量基本均衡的作用;在叙词表构建过程中,范畴体系可将相关同汇聚集到一起,方便词间关系的发现和构建;叙词表构建完成后,范畴体系起到组织词表概念的作用,能反映叙词表知识体系的宏观结构,是词汇的主要索引方式之一.

一般情况下,构建范畴体系不是从零开始,可以根据拟构建叙词表的学科特征选择已有的分类体系,根据拟构建叙词表的功能定位以及词汇学科分布情况对分类体系进行调整.

《英表》范畴体系的构建需要考虑英语语言地区的政治、经济、文化背景,构建的分类体系要能匹配英语语言地区人们对学科知识结构的理解.同时NSTL的主要怎么写作对象是国内用户,《英表》构建不可能完全脱离国内用户的文化背景和知识结构,因此也需要考虑国内用户对学科体系的理解,尽可能靠近国内用户熟悉的分类体系.

基于上述考虑,《英表》范畴体系的构建思路是:选择一部英语地区主流的分类表作为主干范畴表,主干范畴表要能覆盖理、工、农、医几大部类.以此为基础,根据《英表》学科规划和词汇分类的具体需求,参考其他分类体系对主干范畴表进行局部调整,形成指导《英表》词汇采集、类分与导航的范畴体系.由于《中国图书馆分类法》(以下简称《中图法》)是我国应用最广泛的综合分类法,而E1分类表是工程技术领域影响最大的词汇分类体系,因此在研究中将以这两部分类法作为主要的参考分类体系.

3.主干表选择及其结构特征

3.1 主干表选择

《杜威十进分类法》(DeweyDecimalClassification,以下简称DDC)、《美国国会图书馆分类法》(以下简称LCC)是英语地区影响很大的综合分类法,这两部分类法都有专设的维护机构持续进行维护和修订,是选择主干范畴表的主要考虑对象.

DDC和LCC在类目体系和类号体制上有着较大区别:①DDC是一部通用分类法,系统性较强.而LCC是为满足美国国会图书馆图书分类的要求而编撰的,并非通用分类法.LCC各分册由各学科专家分别进行编制和修订,没有统一的编制规则,缺乏明确的分类理论指导,系统性较差.②DDC是十进制分类体系,各级类目基本按层累制方式编号,类目体系等级分明,易于理解和使用.LCC是列举式分类体系,类目编号是一种完全的序数制,基本不能反映类目的从属关系.从类号体制看,《中图法》和DDC也更为接近.基于上述原因,本研究更倾向于采用DDC作为《英表》主干范畴表.

3.2 DDC的结构特征与局限

在DDC中,工程技术主要对应一级大类“6Teeh-nology(技术)”(为了阐述方便,下文只列类名的中文译称),其二级类中除“62工程”外,工程技术相关学科类目还包括"64家政与家政管理”、“66化学工程”、“67制造”、“68特殊用途产品的制造”、“69建筑与施工”.62中的“621应用物理学”、“629其他各种工程”所界定的学科范围从类名难以作出准确判断,将这两个类目进一步展开,621下包含了电子、电工、通信、计算机、动力、机械等学科类目,629下包含了交通工具、铁路、公路、航空航天、自动控制等学科类目(见图2):

展开“66化学工程”(见图3),发现66中包含了饮料技术、食品技术、冶金、石油、天然气,与《中图法》和E1分类表对“化学工程”的界定有较大区别.“67制造”、“68特定用途产品的制造”中大部分类目和《中图法》“TS轻工业、手工业、生活怎么写作业”下的相关类目对应关系较好(见图4、图5).

通过对DDC“6技术”大类逐级展开,并与《中图法》(T、u、V、x)及E1分类表进行对比分析,能比较清晰地观察到DDC类目体系的结构特征.

《中图法》工程技术相关部分(T、u、V、x)和E1分类表在DDC中基本都有对应类目,d王就是说,DDC能基本覆盖《中图法》工程技术部分和E1分类表类目.

虽然DDC基本能覆盖《中图法》工程技术相关学科领域,但两个分类体系对类目的划分还是有较大不同.主要表现在:①DDC“624土木工程”在《中图法》中没有直接对应类目,在《中图法》中土木工程分散在建筑、交通、水利中.②《中图法》“TU建筑科学”在DDC中区分为工程和艺术两部分,建筑的结构、材料、施工等内容归人“69建筑与施工”,属工程范畴;区域规划、建筑设计、建筑艺术、园林等归入“71城市及景观艺术”和“72建筑学”中,属艺术范畴.③交通运输的界定有较大区别.《中图法》“u交通运输”在DDC中被区分为若干部分.水陆空运输及车站、码头、机场的运营管理等内容主要分布在385-388,属社会科学范畴;机车、铁路、公路、船舶、汽车等属工程范畴,涉及类目625、623.8、629.2和629.3.


DDC类号体制限制了各级的类目总量,为容纳更多新兴学科,在前类目中出现了一些学科界定不清晰的类目,比如“621应用物理学”、“67制造”、“68特定用途产品的制造”,“629其他各种工程”等.这些类目下包含的内容非常丰富,一些工程技术基本学科门类也位列其中.类号体制的限制使得DDC学科层级较深,需要层层展开才能逐渐明了,类目导航效果不佳.图6对比了DDC和《中图法》中工程技术主要学科门类所处的层级.可看出DDC中大部分工程技术基本学科的层级都在以上,电子技术、电信、计算机、自动化、核技术这些学科在DDC中已经到了第5级.

4、基于DDC构建《英文超级科技词表》范畴体系

4.1 基于DDC进行类目体系重构的思路

为改善DDC导航效果,需要对DDC类目结构进行一些调整.DDC前类目一般不用于文献分类,仅用于类目导航,因此调整DDC上层类目的构成,重构DDC类目导航体系原则上是可行的.具体做法是:通过提升类级突出显示一批隐藏较深的基本学科门类;对类名界定不清的类目或包含学科门类过于庞杂的类目进行分拆和重组;删除或隐藏一些不必要的类目;根据需要新增类目以便归拢重组的各相关类目.

对分类法的改造须谨慎,分类法有其内在的分类思想,立类依据受主客观因素影响,经过多年发展已形成相对平衡的体系,过度改造可能破坏这种平衡,导致更多问题.因此,在DDC类目体系重构过程中,应尽量遵循以下原则:

在不影响导航效果的前提下,对DDC中学科界定清晰的类目等同采用.对类名界定不清或学科构成过于庞杂的类目进行拆分时要尽量保证DDC以下类目的完整性,避免过度分拆.

提升DDC学科门类的级位时需要参考《中图法》和E1分类表.对于在DDC中构成过于简单的类目不宜提升为工程基本大类.

尽量集中DDC类目体系中类号靠近的相关类目,避免过度分拆.

参考《中图法》与E1分类表对DDC相关类目进行归拢,但要避免归拢DDC中与《中图法》或E1分类表没有主要对应类目的过于分散的类目.

归拢相关类目时尽量避免跨大类合并.考虑到《英表》范畴体系构建过程中理、工、农、医需要分工与协作,为保证几大部类相对完整,避免类目体系过多交叉,应尽量避免在理、工、农、医几大部类间跨部类归并.

DDC类目体系重构分两个阶段,首先是确定《英表》基本学科门类及其主要构成,然后对各学科细分类目进行梳理,完善类目参见体系.

4.2 工程技术基本学科门类的确定

4.2.1 从DDC前类目中直接提取工程技术基本学科从DDC前类目中提取学科界定相对清晰的类目作为首批工程技术基本学科门类,共9个,分别为:“622矿业工程”、“623军事工程及船舶工程”、“624土木工程”、“625铁路与道路工程”、“627水利工程”、“628卫生与市政工程环境保护工程”、“64家政与家政管理”、“66化学工业”、“69建筑与施32”.

“64家政与家政管理”在《中图法》中对应“TS97生活怎么写作技术”.《中图法》第5版中将TS的类名由原来的“TS轻工业、手工业”更改为“TS轻工业、手工业、生活怎么写作业”,并对“TS97生活怎么写作技术”的类目作了较大改动,这一类目在《中图法》中的地位有所提升.按照不影响导航效果时尽量保持DDC原有结构体系的原则,将其入选为工程技术基本学科门类.“66化学工程”由于包含《中图法》和E1分类表中的多个学科门类,将对其进行分析,确定进一步的拆分方案(参见本文4.2.5).

4.2.2 从以下的DDC类目中提取工程技术基本学科DDC部分工程技术学科隐藏在以下类目中,本研究将DDC分别与《中图法》和E1分类表进行映射,获取两部参考分类表的工程技术基本学科与DDC类目的对应关系,将一致性较好的学科提取出来作为第二批工程技术基本学科,学科下分类目的构成以两个参考分类体系共同对应的DDC类目为主,兼顾相邻相关类目尽量集中的原则,将邻近相关类目尽量归入同一个学科基本门类中.比如“621.37电量计算”在《中图法》“TM电工技术”中有对应类目,但在E1分类表“700电工技术”中没涉及,考虑到相邻相关类耳尽量归拢的原则,将“621.37电量计算”与621.31、621.32、621.33、621.34、621.37归入同一个基本大类――电工技术.

表1为第二批提取的工程技术基本学科门类,共11个.表中从左往右第一列为《英表》工程技术基本学科,第二列为《中图法》相应学科对应的DDC类目,第三列为E1分类表相应学科对应的DDC类目,第四列为通过分析对比确定的《英表》学科细分类目.

4.2.3DDC621的重组与“动力工程”的类目构成DDC“621应用物理学”中尚未处理的类目包括:621.1-621.2、621.4、621.5、621.6,这几个类目与两个参考分类体系的对应关系如下:

“621.1-621.2流体动力技术”:在《中图法》中主要入“TK能源与动力工程”;在E1分类表中主要入“610机械工程设备与动力”和“630流体、水力学、气动和真空”.

“621.4原动机和热力工程”:在《中图法》中主要入“TK能源与动力工程”;在E1分类表中主要入“610机械工程设备与动力”和“640热与热动力学”.

“621.5气动、真空、低温技术”:在《中图法》中拆分为“TP6射流技术(流控技术)”(气动技术入此),“TB7真空技术”和“TB6制冷工程”;在EI分类表中主要人“630流体、水力学、气动和真空”和“640热与热动力学”中.

“621.6鼓风机、送风机、泵”:在《中图法》中主要入“TH机械、仪表工业”;在E1分类表中主要人“610机械工程设备与动力”.

基于DDC的《英文超级科技词表》范畴体系构建参考属性评定
有关论文范文主题研究: 工程技术类论文范文 大学生适用: 硕士毕业论文、高校毕业论文
相关参考文献下载数量: 37 写作解决问题: 如何写
毕业论文开题报告: 论文提纲、论文选题 职称论文适用: 论文发表、初级职称
所属大学生专业类别: 如何写 论文题目推荐度: 经典题目

从以上分析可看出,DDC621中上述几个类目在E1分类表中主要归为动力工程,在《中图法》中则涉及到了动力工程、机械、自动化、通用技术多个大类.为保证DDC类目在重组中得以相对集中,本研究采纳了E1分类表的类目构成方案,将DDC的621.1-621.2、621.4、621.5、621.6几个类目归并为“动力工程”.4.2.4DDC629的重组与“汽车工程”类目的构成“629其他各种工程”因类名界定不清被分拆后尚未处理的类目包括“629.2陆用机动车和自行车”、“629.3气垫交通工具(水陆两用气垫交通工具、气垫船)”.

在《中图法》中,DDC629.2大致对应“U46汽车工程”,但“自行车”、“摩托车”等内容被归入“U48其他道路运输工具”;在口分类表中,DDC629.2对应“660汽车工程”,“自行车”、“摩托车”等在E1分类表中靠类也归入660.为避免将629.2再次拆分,保证DDC以下类目的完整性,本研究采纳E1分类表的处理办法,将6292独立为工程技术基本学科“汽车工程”.

在《中图法》中,DDC629.3的“气垫车”部分被归入U46,“气垫船”部分被归入“U66船舶工程”;在E1分类表中,DDC629.3,归人“670船舶工程”.为避免将629.3再次拆分,本研究仍采用E1分类表的处理方法,将629.3归入DDC“623军事工程与船舶工程”.4.2.5DDC66、67、68的重组与“化学工程”、“轻工业、手工业”类目的构成将DDC66、67、68分拆后来处理的类目分别与《中图法》、E1分类表进行比对分析,可看出这三大类日在《中图法》、E1分类表中相对集中.在E1分类表中主要对应“800化学工程总论”、“810化学工业”、“820农业工程和食品技术”.在《中图法》中,主要对应“TQ化学工业”、“TS轻工业、手工业、生活怎么写作业”.

E1分类表对DDC68覆盖较差,如图7所示:

相比之下《中图法》对DDC66、67、68的覆盖更全面(见图8).因此本研究主要参照《中图法》对66、67、68类目进行重组.将DDC的661、662、665(除“665.5石油”、“665.7天然气及工业煤气”)、666、668和678合并为“化学工业”.将DDC的663、664、667、674、675、676、677、679和DDC68大类下除“681精密仪器及其他装置”外的其他类目(682-688)合并为“轻工业、手工业”.DDC681归入“工程技术总论及工程通用技术”(参见本文4.2.6).

4.2.6 “工程技术总论及通用技术”的类目构成DDC每级类目有O-9共10个号,“0”为总论或通用性类目,也包括那些不能归入其他各类的类目.由于《英表》“工程技术”范围已超出DDC“62工程”,仅用DDC620不能代表《英表》工程技术总论及通用技术的全部内容.另外,DDC为文献分类法,很多加“0”复分的类目只适合对文献进行形式细分,不适于词汇分类.因此,有必要对相关的“0”类目进行分析筛选,重组适用于《英表》词汇分类的“工程技术总论及通用技术”大类.

“工程技术总论及通用技术”构成类目主要来源于三个方面:①60、600、620,下属相关类目;②621、629、67、68,由于被完全拆分,这些类目在《英表》中不保留,需对其加“0”复分类目进行筛选,归入总论及通用技术;③681,之前的处理中没归人工程技术基本学科下的孤立类目.

DDC的6个复分表中除“TableiStandardSubdivi-sions(标准复分表)”外,其余的复分表均为针对文献的形式复分表.“T1标准复分表”中除“01Philosophyandtheory(原理与理论)”和“04Specialtopics(特殊主题)”外,其余均为文献的形式复分.因此,本研究对复分类目的筛选重点考虑“01”和“04”类目.

三种来源的类目汇总如表2所示:

从表2可看出《英表》“工程技术总论与通用技术”与《中图法》及E1分类表的总论性类目部分基本一致:原理(基础科学)――设计――材料――仪器与测量,但通用技术部分有较大差别.通用技术是集中还是分散,不同的分类法处理不完全一致,为了避免DDC类目体系过细的分拆与重组,尽量保持DDC原有类目构成,《英表》在通用技术部分不做大的调整.

4.3 工程技术基本学科细分类目的处理原则

DDC主要用于文献分类,有一些不适宜词汇分类的特征,为保证《英表》范畴体系相对简洁,在重组基本学科门类后,需要对各学科细分类目进行梳理.处理原则如下:①删除DDC弃用类目(在DDC中加方括号的类目).②不再保留被完全分拆的类目,比如621、629、67、68.③增加类目用于聚拢相关各类.为保证《英表》范畴体系与DDC较好的对应关系,要控制新增类目数量,新增类目原则上不用于词汇分类,仅作类目导航之用.④如果所有子类被提升,则隐藏对应的父类.⑤隐藏部分用于文献分类的加“0”复分类目.比如“624.092土木工程师”.⑥列举子类不全、有明显遗漏的类目,隐藏其所有子类.如“622.188宝石勘探”下只列出“622.1887半宝石勘探”,则隐藏622.188下所有类目.⑦隐藏在同一大类中有明显重复的类目.比如DDC土木工程中“624.153基础工程材料”与“624.18材料”有明显重复,可考虑隐藏624.153及其下级各类.跨大类交叉的类目不隐藏,可作类目参照以反映概念的多学科属性.

5.结语与讨论

本文分析了基于DDC构建《英表》范畴体系的可行性及构建原则,通过DDC与《中图法》及E1分类表的对比分析,对DDC类目进行了类级提升、类目拆分和相关类归拢等处理,共提取了24个工程技术基本大类和一个总论及通用技术类目,并进一步提出了各学科细分类目的梳理原则.

《英表》范畴体系的构建远没有结束,重组的类目体系是否能起到很好的类目导航效果,细分类目的梳理原则是否能解决实际工作中的大部分问题,这些都需要在实践中进行验证和调整.DDC学科类目的设置比较传统,新必学科领域可能隐藏较深,或类目量单薄.比如“纳米技术”在E1分类表中为一个基本大类,但在DDC中只涉及一个类目620.5,没有细分,这样的类目不足以支撑一个基本大类.新的学科类目是否要在范畴体系中突出表现,需考虑该类目下的文献量和词汇量是否达到一个学科或专业立类所需要的文献保障和词汇保障要求.随着范畴体系在《英表》构建过程中的应用,范畴体系类目不平衡甚至类目缺失的问题会逐渐暴露,需要对类目体系进行调整,类级或升或降,类目量或节略或增补,可参考专业类表进行类目细化.

以下问题也有待进一步研究:①叙词表范畴体系不能通过类目组配等方式灵活地进行类目扩展,如果列出所有复分类目又会显得过于繁琐.传统叙词表的处理方法是将无法归人各子类的词汇归人上级类,或在范畴体系中设置“**一般概念”等范畴,以收纳无法归入各类的词汇.这种处理方式会使得这些类目下的词汇庞杂,词汇间的相关性较差.词汇分类是否可以借鉴文献分类的复分技术或类目组配技术,并在范畴导航中采用动态的范畴显示和导航机制,是需要进一步研究的问题.②文献分类法应用于词汇分类可能面临一些问题,比如文献类分维度和词汇类分维度究竟有多大程度的一致性,有关这方面的研究还较少见.如果一致性不好会造成词汇难以归人类目体系,导致某些类集中过多词汇,某些类的词汇量又太少,类目体系的均衡性较差.