全文搜索引擎检索帮助的改进建议

点赞:11057 浏览:45265 近期更新时间:2024-02-22 作者:网友分享原创网站原创

关 键 词:全文搜索引擎;检索帮助;改进;建议

摘 要:针对目前全文搜索引擎的检索效率低,引擎提供的检索帮助不够完善的实际情况,结合并借鉴诸多检索网站的优点,提出了将检索帮助置于显见位置、普及和改进高级检索、在全文检索中引入分类体系、对搜索引擎的信息来源网站进行主题分类、增加同义词的检索帮助以及引导用户参与设计检索帮助等方面的改进建议.

中图分类号:G252.7文献标识码:A文章编号:1003-1588(2012)03-0031-03

收稿日期:2012-05-06

作者简介:冷玥(1990-),北京大学信息管理系学生.研究方向:信息管理与信息系统.随着以百度、Google为代表的全文搜索引擎在人们生活中扮演愈加重要的角色,人们也提出了在使用全文搜索引擎进行检索过程中遇到的一些实际问题.其中,检索效率低,需要全文搜索引擎提供更加有效的检索帮助是一个突出的问题.

1全文搜索引擎的工作原理

全文搜索引擎是真正意义上的搜索引擎,全文搜索引擎的数据库是通过一个叫“网络机器人(英文为Spider)”的软件,将网络上的各种链接自动获取大量的网页信息,并按一定的规则分析整理而形成的.全文搜索引擎的“网络机器人”是一种网络上的软件,遍布Web空间,能够扫描到一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站再到另一个网站去收集网页资料.全文搜索引擎的“网络机器人”为保证收集到的信息资源最新、最全,还会再回访已抓取过的网页.“网络机器人”收集的网页,还要由其他程序进行分析,根据一定的相关度算法进行大量的计算建立起网页索引,这样才能添加到索引数据库中.平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当用户输入关 键 词进行搜索时,搜索引擎会从庞大的数据库中找到符合该关 键 词的所有相关网页的索引,并按一定的排列规则返给用户.

综上所述,全文搜索引擎的原理主要分为三个部分:首先是从Inter上抓取网页.利用“网络机器人”系统程序从Inter上自动收集网页,自动访问Inter,并沿着任何网页中所有的统一资源定位符爬到其他网页,再经过多次过程重复,并把爬过的全部网页收集起来;其次是建立索引数据库.利用分析索引系统程序对收集起来的网页内容进行分析,并提取有关的网页信息,通过复杂大量的计算,算出每一个网页针对页面内容中及超链中每一个关 键 词的相关度,再由这些相关的信息建立起网页索引数据库;最后是在索引数据库中搜索排序.当用户输入关 键 词搜索后,利用搜索系统程序从网页索引数据库中找出符合所输入关 键 词的全部相关网页.因为全部的相关网页对所输入关 键 词的相关度已经计算出来,并对结果进行了优化,然后再由页面生成系统将搜索结果的链接地址和页面内容、摘 要等有关内容呈现给用户\[1-3\].

2全文搜索引擎检索帮助存在的薄弱环节

目前,全文搜索引擎得到了快速发展和广泛应用,其功能也越来越强大,但仍然存在着检索效率不高的问题,虽然一些搜索引擎和一些具有检索功能的网站设置了检索帮助,但通过分析研究发现,全文搜索引擎检索帮助也有很多薄弱环节,主要体现在受控较弱,很难从一个完整的分类体系的角度为用户提供有价值的检索帮助,也可以理解为很难将用户的检索范畴限制在想要检索的信息存在的范围内,用户需要在返回的海量信息中寻找自己真正需要的信息.整个网络就是一个超级大型的信息资源数据库,而且无法用一个完整的分类体系对信息资源进行分类、分区,用户依然需要经过对信息资源内容进行筛选,如果用户面临的信息资源来自较大的范围,就不得不花大量的时间在浩如烟海的大型信息资源数据库中进行信息的筛选.因此可以将思路锁定于寻找一种可以缩小检索范围的检索帮助之中,从对全文搜索引擎检索帮助的分析研究中发现,对其检索帮助进行改进和完善是必要的和可行的\[4,5\].

3全文搜索引擎检索帮助的改进建议

经分析研究,针对全文搜索引擎检索帮助存在的薄弱环节,结合并借鉴诸多检索网站的优点,建议从以下几个方面对全文搜索引擎检索帮助进行改进.

3.1将检索帮助区域置于易见位置

在分析研究过程中发现,几家常用的全文搜索引擎的帮助选项都位于页面的下方而且没有用显眼的标志进行标记,用户一旦遇到了问题,很难发现可以求助于搜索引擎本身,而帮助中的内容,比如说选择检索词的原则,模糊检索的可能性等等,他是和用户的检索工作息息相关、不可分割的.因此改进检索帮助应该包括让用户可以很容易地获得需要的帮助.目前,很多用户在使用的过程中都不知道搜索引擎存在专门的检索帮助链接,只能凭借经验进行搜索,这是一个不应该出现的现象,也应该是检索帮助的改进方向.

3.2普及和改进高级搜索

对于全文检索来说,合理的限制越多,返回的信息量越少,需要进行筛选的时间花费的越少,检索效率提高的也就越多.但同时发现,用户很难全面地想出足够多的限制词来修饰自己想要检索的信息资源,高级检索的存在则是从信息资源的形式角度提出限制的可行方法.举个例子来说,如果有用户想检索军事坦克的内容,若是单纯输入坦克,返回的内容可能还包括玩具坦克的介绍,那么利用高级搜索,他就可以选择过滤掉玩具坦克有关内容的检索结果,减轻自己筛选的负担.同时,也可以对检索帮助的功能进行完善.比如说从更多的角度提供对检索内容进行限制的条件.目前的检索限制条件还是比较少的,尤其是无法启发用户从检索词表达的具体内容上对检索词进行改进.

3.3在全文搜索引擎中对信息资源进行分类

从信息资源进行分类的角度来看,建议使用预先编制的控制词表来提供全文搜索引擎的检索帮助.这是由于控制词表一般根据资源的整体和使用需要来进行设置,是根据检索系统全局使用的需要建立的辅助方式,尽管在形式上与传统的叙词表相类似,传统的叙词表没有控制词表那样苛刻.在检索时,检索系统先将用户的检索提问和控制词表匹配,通过控制词表中的同义词控制来进行检索.该方法的优点是能够在一定程度上提供概念检索,并利用相关检索词的优化来选择帮助,其缺点是该系统目前还没有真正实现自动化.但同时可以看到,现在的分类网站采用的分类体系与传统的分类法是不同的,更加适合于处理网络信息资源.以前百度所作的检索帮助改进尝试,更多的是想用传统的办法解决现在的问题,因此建议应该基于现在流行的网络分类法来整理全文搜索引擎搜集到的大量信息资源,也可以借鉴垂直搜索引擎的做法,先将用户常用的信息资源集中的领域进行重新的组织,对于表达同一主题的信息进行集中,经过处理后,使得用户输入的每一个关 键 词都能对应特定的结构化的处理结果.如果真实现了这样一个检索帮助体系,用户可以根据给定的分类,观察自己选择的检索词在整个分类体系中的位置,以及它的上位类、下位类所对应和囊括的概念是否与自己的预期相同,以便从检索词实际表达的内容角度调整检索词.如果返回结果偏多,可以从下位类中选择相应的合适词进行再次检索,如果返回的结果偏少,没有得到自己想要的信息,可以适当选择之前关 键 词的上位类进行检索.3.4对搜索引擎信息的来源网站进行分类


如果用统一的分类体系对搜索引擎上的信息进行分类存在困难,也可以考虑在规模较大的搜索引擎上对信息资源的来源网站进行分类,分类的依据是网站的信息主题.比如说,就是提供网络小说相关信息的网站,智联招聘网就是招聘信息的网站.这样,用户可以考虑直接在这些网站中进行站内搜索,避免了在搜索引擎中进行犹如大海捞针般的信息检索;同时,这种方式也可以看作从大的集合方面将搜索引擎的信息进行分类.用户在进行信息检索时,这种分类方法会帮助用户划定检索范畴,提高检索效率.

3.5增加基于同义词的检索帮助

现在的搜索引擎在同义词控制方面还比较薄弱,如果不能从技术上实现同义词之间返回结果的完全相同,可以从检索帮助的角度,提供基于同义词的相关检索.比如说检索“手机”和检索“移动”返回的检索结果是不同的,而在以“手机”或者“移动”作为检索词的检索中,都没有将其他表示这一概念的词作为相关词条提供给用户.这种现象可能导致用户获得信息的不完全.如果在检索帮助中加入必要的同义词作为相关检索词条,很可能会为用户提供有用的启示.比如说,自己选择的检索词是不是已经不是表达这一概念的常用词?是不是有更好、更专指的词可以表达这一概念?基于同义词的检索帮助是用来弥补搜索引擎当今设计中的缺陷,有助于提高用户检索的质量,保证用户检索的效率.

3.6用户参与设计检索帮助

3.6.1收集用户反馈,为用户编制某几个主题的分类检索帮助或者类叙词表检索帮助

个性化搜索引擎概念的提出,将搜索引擎应切合用户需求的理念植入了引擎设计者的设计过程中.因此应根据用户的使用需要来设计引擎,但是用户的需要千差万别,很难用一个通用模式顾及到所有用户的检索需求.在设计检索帮助的过程中,可以将有着相同检索热点的用户归为一类,为这一类用户编制其经常进行检索主题的分类检索帮助或者类叙词表检索帮助,笔者认为类叙词表处理会更具健壮性和实用性,因为它可以同时提供主题和分类检索,在进行网络检索的时候,主题词应该比分类词来的更加直接,但是分类主题词表编制的难度也较大(范围缩小,实用性增强).在此类检索帮助的形式上,可以借鉴百度曾经利用过的检索帮助的形式,在检索页面的一侧提供分类体系,也可以借鉴淘宝网的检索帮助形式,即在检索下拉列表框之下直接给出分类建议.

3.6.2用户参与编制检索帮助

可以模仿百度百科和百度文库的方式,由经常检索相同主题的用户为这一主题提供检索词条甚至编排分类检索帮助(实际应用中,分类词表的编制可以不严格,分类能有效描述检索需求即可),也可以实行检索词条共享,用户将自己检索时用得比较有效率的词条与网友共享,适当的时候替代现在广泛使用的相关检索.同时,由专业人员设计的检索帮助可能无法覆盖检索的各个领域,由用户参与检索帮助的编制,一定程度上可以使得检索帮助分领域深入下去,并能紧跟用户新的需要进行调整,满足更多用户的检索需求.

3.6.3协助用户形成检索互助小组,实现检索优劣势的互补

在用户的反馈中,能体现出其对事物认知的特点,也可根据这种特点进行检索帮助,按认知类型将用户分类,互相借鉴检索词条,实现互补.依据用户的搜索记录,针对用户进行二次甚至多次检索的检索方向,根据用户的认知特点.比如说有些人喜欢从总体上描述一个概念,而不善于将概念细化,而有些人恰好相反,只能将概念具体到一定程度,不会从大的方向上来把握检索.将这样的两个小组结为互助小组,用户可以分享检索过程中的经验和教训,弥补自身的不足.可以说,这种形式是检索帮助由系统设定算法向人际交流的帮助形式进行的过渡.毕竟人与人之间的交流更直接,希望这种方式也能成为一个检索帮助可靠的改进方向.

4结语

从目前的全文搜索引擎检索帮助的分析研究中发现,检索帮助确实能在帮助用户提高检索效率方面提供一定的帮助,但是还有提高的余地,尤其是全文搜索引擎在检索的时候受控较弱,在检索帮助中提供一定的受控方向是必要的.在此过程中,可以着重考虑如何才能协助用户划定一个合理的检索范畴,很好地解决了这个问题,就能很好地为用户提供必要的检索帮助.在思索检索帮助的改进时,传统的信息组织理论,包括分类法、主题法等在解决网络信息资源组织的种种问题时依然是可以借鉴的.因此在以后的实践中,还要重视传统信息组织方法的利用,让信息组织方法与时俱进,为人们提供更多的帮助,更多的思考,并在以后的实践中不断的加以完善.