面向中学信息资源搜索技术

点赞:20736 浏览:94406 近期更新时间:2024-04-07 作者:网友分享原创网站原创

【摘 要 】专业中学信息资源搜索引擎的设计难点在于如何实时抓取海量商品网站的内容,如何对网页进行快速分类和排序.需要对数据采集算法和文本分类,检索算法进行一定的改进.在搜索技术研究中,已经具有了不少成熟的、有效的技术,这些技术在工程应用中得到一定的实践检验.面向电子商务中学信息资源搜索引擎是一个特殊的中学信息资源搜索引擎,它可以对前人的技术进行有效的应用和改进,满足和实现自身的需求.这些技术包括:数据采集,分词,索引,检索以及接口等技术.

【关 键 词 】信息资源 搜索技术 数据采集

一、垂直中学信息资源搜索引擎理论分析

面向电子商务中学信息资源搜索引擎是垂直中学信息资源搜索引擎的一种.垂直搜索是针对某一个行业的专业中学信息资源搜索引擎,是中学信息资源搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行的一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户.

垂直中学信息资源搜索引擎和普通的网页中学信息资源搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据.好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位.然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求.

面向中学信息资源搜索技术参考属性评定
有关论文范文主题研究: 关于电子商务的论文范文文献 大学生适用: 在职研究生论文、函授论文
相关参考文献下载数量: 56 写作解决问题: 写作参考
毕业论文开题报告: 标准论文格式、论文总结 职称论文适用: 期刊目录、高级职称
所属大学生专业类别: 写作参考 论文题目推荐度: 经典题目

二、网络数据采集设计

1.工作原理.在数据采集部分重点涉及Robot技术,而在数据加工部分重点涉及自动分类技术.

(1)Robot工作原理:Robot有时也称为蜘蛛(Spider)、漫游者(Wanderer)、爬虫(Crawler)或蠕虫(Worm),是一种能够利用Web文档内的超链接递归地访问新文档的程序.具体描述为它以一个或一组URL为浏览起点,对相应的WWW文档进行访问.当一个已知的文档从所在的站点被取回后,它所包含的信息将被中学信息资源搜索引擎用于建立文档索引,同时它所包含的超链接将被Robot用来访问新的文档.随着新文档被取回,新的超链接又将被发现,如此不断进行下去,从而实现对大范围内文档信息的收集.

(2)自动分类工作原理:文档自动分类的关键问题是构造一个分类函数或分类模型(也叫分类器),并利用该分类模型将未知文档映射到给定的类别空间.目前常用的文档分类模型有:布尔逻辑型、向量空间型、概率型、混合型.其中向量空间模型(Vector Space Model,V)是近年来应用较多且效果较好的一种模型 .在V中,每一篇文档都被映射成由一组规范化正交词条矢量所构成的多维向量空间中的一个点,对于所有的文档类和未知文档,都可用此空间中的词条向量:(TI,W1;T2,W2;等 ;Tn,Wn)来表示(其中T;为特征项词条,Wi为对应坐标值,即特征词条权值,用于刻画该词在描述此文档内容时的重要程度),从而将文档信息的表示和匹配问题转换为向量空间中向量的表示和匹配问题来处理.

2.数据采集算法.在中学信息资源搜索引擎中,Robot必须在多个网站间来回移动完成它的任务.由于各个网站的反应时问(latency)不同,所以就存在Robot的最佳移动路线问题.可以把互联网当作一个有向图,每个网页相当于一个节点,网页中的超链接是一条有向边,网页中指向其他网页的超链接个数是该网页节点的出度,其他网页指向该网页的超链接数则是该网页的入度.


在实际应用中,一般蜘蛛算法中Get操作耗时最长,其主要原因是网络带宽的限制以及另一端的怎么写作器的反应延时所致.我们应当尽可能地减少这些不利因素的影响,加快Robot访问速度,提高获取页面的质量(优先获取重要网页).相对应的优化策略是:

(1)开发多个Robot协调工作,即分布式Robot系统.

此时,多个Robot之间的合作就显得非常重要.比如,必须避免两个Robot对同一个文档搜索两次.在上述算法中,必须合理解决多个Robot并发访问队列F的问题.显然队列维护操作的时耗应该远远小于Get操作的时耗.

(2)把地域相近的URL分配给同一个Robot采集.

这样,每一个Robot所需访问的Web怎么写作器的距离就不会太远.但是判断Robot与怎么写作器之问的距离是一个难点,因为队列的简单共享并不足以完美地解决此类问题.

三、总结

添加URL之前的加工处理:URL的存储可以在存储占用空间以及访问速度两个方面进行优化.首先把已获取的URL按字典顺序排列,只存储URL的增加部分,可以减少70%的存储量.利用hash的方法存储URL,可以加速URL的访问.另外,还要辨别出内容重复的URL(包括多种情况).分配URL给不同的Robot:把从源URL集合中读取的URL根据既定规则分配给不同的Robot.根据指定URL获取文档:从怎么写作器端得到对应的文档.