基于.NET的word的文档信息读取

点赞:23201 浏览:106266 近期更新时间:2024-03-11 作者:网友分享原创网站原创

摘 要 :本文主要介绍了在基于word 2007的OPEN XML存储格式的基础上结合.NET技术实现word文档关键信息和内容信息的读取和解析.提供了更加简单易用的操作界面,极大地提高了对word文档操作的效率.

关 键 词 :OPENXML;.NET;文档信息读取;文档信息解析

中图分类号:TP317.1

随着市场需求的不断更新,在过去几年中肩负着存储和转换数据的二进制文件格式已经无法满足需求,由此产生了基于XML的文件格式.这种格式称为Office Open XML格式,改变了Microsoft Office建立解决方案的方式[1][2].

Office Open XML对word文档(2007和2003均可)关键信息、内容的解析更加方便,能够从各个XML文件中获取信息来组建新的WORD文档,而且能够使文档中的各独立数据重新组合.由于它采用了Open XML这种存储格式,使得Office办公程序和其他业务系统之间能够方便地传递数据.Office Open XML这种存储格式的可靠性比二进制格式要好,可以有效地减小破坏文件数据的风险.由于Office办公程序的设计是以Office Open XML格式为基础,因而提高了创建和恢复文档的可靠性.

1.文档信息读取解析

1.1 基础原理介绍

1.2 基本过程

进行解析的文档不仅仅是指以Office Open XML为基本存储结构的word2007文档,当然也可以对word2003文档进行相应的操作,但是由于word2003采用的是二进制流的存储格式,在进行文档信息读取解析的过程之前需要先将word2003文档进行格式转换,转换为word2007文档[3-6].文档格式转换的过程只需要将word2003的文档存储格式变成wd Format XML Document格式即可.


本文介绍的文档(一般情况文档)信息的读取解析针对的是文档基本内容信息、标题信息、目录信息.

基于.NET的word的文档信息读取参考属性评定
有关论文范文主题研究: 关于计算机应用的文章 大学生适用: 学位论文、在职研究生论文
相关参考文献下载数量: 76 写作解决问题: 如何怎么撰写
毕业论文开题报告: 论文提纲、论文总结 职称论文适用: 职称评定、初级职称
所属大学生专业类别: 如何怎么撰写 论文题目推荐度: 免费选题

1.2.1 文档基本内容信息,文档标题信息读取

文档文本信息主要包括的是文本基本内容信息和文档标题信息.主要的内容均存放在其Open XML格式的word文件夹中的document.xml文件中.

文本基本内容信息只包括文档的文本(暂时不包括标题)、图片和表格信息等.而文档标题信息就是常见的一级,二级,等标题等.

(1)寻找所要读取部分的标识符.一般情况下,不同的文本内容在XML文件中具有不同的标识符号.文本信息和标题信息均位于相同的表示符“P”(即Paragraph)中,能够标识两者区别的是其属性信息.文档基本文本信息和标题信息的最主要的区别是在paragraph的段落属性信息中的pStyle的值中体现出来的.最况下标题信息在XML文件中的段落属性pStyle值为1,2等或者是heading1,heading2等,则此时表示此段落为标题信息段落.pStyle的Val值不为上述值或者是此段落没有pStyle属性信息则表示的为当前的段落为一般的文本信息.

(2)表格信息一般是位于标识符为“tbl”标识符内部.而在“tbl”标识符内部会有相应的行标识符“tr”和单元格标识符“tc”.可根据相应的“tr”和“tc”标识符来读取当前的表格内部信息.

(3)图片信息一般由标识符“drawing”或者是“Embedded Object”来确定.

在word2007的Open XML存储格式当前文档中的图片信息是存放在media文件夹当中的.图片信息获取是通过文档的主要部分MainDocumentPart.Parts中的RelationshipId与当前图片中ID信息相同时来获取当前的图片信息的.即使用图片与文档相关联的一些ID信息,然后从\word\media文件夹中寻找相应图片信息.

1.2.2 目录信息读取与解析

在我们平常使用的文档中生成目录以后,目录就会含有超链接,点击相应的目录跳转到相应的位置.这个信息在word2007的Open XML存储格式中是有相应体现的.

目录信息一般由表示符“TOC”或者是目录级别标识确定.同时由于目录一般属于超链接形式其标识为“hyperlink”.

以上所有的内容均是按照读取普通XML文档格式的方式根据基本信息的标识符信息来读取相应的内容加载到不同的位置进行显示.

2.结束语

Office Open XML的基本存储结构为利用.NET对word文档基本内容读取解析提供了很大的便利.让我们对word2007的存储结构有了更加轻松深刻的了解.本文所述的情况为基本情况下的文档读取与解析过程,不包括自定义一些文档特殊格式或者是添加了内容控件等情况.由于只是初学阶段,一些复杂的文档的读取解析过程会在后续介绍.