[摘 要 ]通过分析动态数据在其Web页面中的展示特点,提出一个新的自动化、结构化数据抽取方法.首先基于DOM利用算法实现快速定位数据区,从而避免处理大量噪音数据;其次引入最小DFs编码来表示DOM子树,通过聚类对记录数据区进行区分;最后对少量样本页面训练学习生成抽取规则用于数据抽取.利用原型系统针对实际网站中的页面进行数据抽取,实验结果显示其拥有较高的准确性和效率.
有关论文范文主题研究: | 关于自动化的论文范本 | 大学生适用: | 专升本毕业论文、自考毕业论文 |
---|---|---|---|
相关参考文献下载数量: | 49 | 写作解决问题: | 怎么写 |
毕业论文开题报告: | 论文提纲、论文前言 | 职称论文适用: | 期刊发表、高级职称 |
所属大学生专业类别: | 怎么写 | 论文题目推荐度: | 优秀选题 |
该文地址:www.tjhyzyxy.com/zhaiyao/418629.html
[关 键 词 ]Deep Web结构化数据 最小DFS 编辑距离 信息抽取
[分类号]TP391