信息检索可视化的优势、实现技术存在的问题

点赞:7058 浏览:22748 近期更新时间:2024-02-27 作者:网友分享原创网站原创

摘 要:信息检索可视化是信息可视化技术在信息检索中的应用,具有增加用户的认知能力、信息检索过程透明化、方便信息浏览、良好的人际对话和交流环境以及提高检全率和检准率的优势.论文介绍了可视化技术实现所需的映射技术和显示技术,并分析了不同的显示技术之间的异同点.此外,论文对目前信息检索可视化存在的未成系统的研究结构、屏幕的显示面积以及可视化的评价标准缺乏等问题进行了论述,认为信息检索可视化是信息检索的发展趋势和研究热点.

关 键 词:信息检索;可视化;映射技术;显示技术

信息检索可视化是信息可视化技术在信息检索中的应用,是指把文献信息、用户提问、各类情报检索模型以及利用检索模型进行信息检索的过程中不可见的内部语义关系转换成图形,在一个二维或三维的可视化空间中显示出来,并向用户提供信息检索的技术[1].

1.信息检索可视化的优势

1.1增强用户的认知能力

可视化检索则通过人类对图片处理的较强能力,将文本内容转化为空间的、图形的形式后,以直观地方式供用户浏览与分析,不再需要进行语言处理,从而减少人的认知负担.与此同时,检索结果的可视化,可以揭示文档中看不见得语义关系,通过一些空间属性如距离、长短、大小等来表示文档的相似性,可以便于用户快速地找到相关的文档,也方便用户理解检索到的信息之间的关联性,从而提高用户的认知能力.

1.2信息检索过程透明化

传统的信息检索系统对用户而言是一个不透明的黑箱,用户提交了提问式后,系统怎样分解用户提问式,怎么匹配提问词和标引词,怎样进行结果等等过程对用户而言都是不透明的,因此用户也无法对系统内部处理过程进行控制.一个可视化的信息检索环境使检索过程变得透明了,包括文献与提问的语义关联关系,文献与文献语义关联关系,信息发现过程,检索的显示等.这使得用户的检索更加容易、有趣,也大大增加了用户对信息检索过程的控制能力.

1.3方便用户进行信息浏览

在可视化的检索环境中,用户检索信息如鱼得水,各种各样的可视化检索技术充分利用了人们对图像处理的能力,既可以显示检索的核心信息,又以各种方式忽略或隐藏周围的细节信息.当用户点击检索结果时,可以很快发现感兴趣的领域,并且根据检索结果的语义关联性,可以研究相关兴趣领域,在一个兴趣领域里自然地过渡在另一个兴趣领域,同时还可以来回自由地在相关的兴趣领域寻找相关信息,这是传统的信息检索不能实现的.

1.4提供良好的人机对话和交流环境

信息检索过程应该是一个多回合的人机对话和交流过程.可视化的检索可视化的信息检索将人的因素引进系统内,在检索中可以发现检索结果之间的关联性,用户可以根据自己感兴趣的内容进行检索,不断获取所需的信息,也可以获取到相关领域的信息,这将会鼓励人的参与,促进人机对话,改善人机交流.

1.5提高检全率和检准率

信息检索可视化是数据可视化技术在信息检索领域的应用,可视化提高了信息相关性判别的效率,扩展了信息相关性判别的手段.信息用户可以通过图形界面与网络信息检索系统进行交互,评价检索过程中每次检索结果,优化提问或查询,从而提高查全率和查准率[2].

2.信息检索可视化的实现技术

信息检索可视化的技术既包括信息检索的技术,也包括可视化的技术.而在可视化的实现技术中,映射技术以及显示技术是至关重要的,前者关系到采取何种算法将将不同的信息之间的语义结构进行呈现,后者则关系到如何将这种检索结果的语义结构以直观恰当的可视方式提供给用户浏览.

2.1映射技术

信息可视化过程中需要处理的数据为多维数据,而计算机处理及我们所能感知的数据一般为2维或3维数据.可视化映射技术主要用于把数据从多维空间映射到2维或3维空间以便于计算机处理.常用的映射技术主要有自组织映射(Self-OrganizingMaps,SOM),寻径网(Pathfinder,PFNET),多维尺度法(MultidimensionalScaling,MDS),潜在语义标引(LatentSemanticIndexing,LSI)等.

(1)自组织映射(Self-OrganizingMaps,SOM)

自组织映射(S0M)算法作为一种聚类和高维可视化的无监督学习算法,是通过模拟人脑对信号处理的特点而发展起来的一种人工神经网络[3].其目标是把输入数据或信号的各种特征加以抽象和组织,并通过聚类作用将它们归并到不同的类目,同时保持拓扑结构的有序性,使输入中特征相似的数据或信号点在映射后处于相邻的空间.

(2)寻径网(Pathfinder网,PFNET)

寻径网PFNET可以用来生成网络导航图,从而进一步提高超媒体系统的导航机制.PFNET根据经验性的数据,对不同概念或实体间联系的相似或差异程度做出评估,然后应用图论中基本概念和原理生成一类特殊的网状模型[4].它对不同概念或实体间形成的语义网络进行表达,从一定程度上模拟了人脑的记忆模型和联想式思维方式,主要应用于认知心理学和人工智能等研究方面.通过对寻径网的分析,可以对不同的概念、实体进行分层和聚类.

(3)多维尺度法(MultidimensionalScaling,MDS)

多维尺度法(MultidimensionScaling,MDS)是一种用来发现被调查对象实证关系的方法,这种方法把对象可视化并在一个低维显示空间描绘它们的地理图像.它可以通过对相关对象进行多元探索和可视化数据分析,来揭示和阐述一系列相关方法的隐藏模型[5].MDS的实际作用是可以用来分析各种距离或者相似的矩阵.这些相似性可以表达人们对文献之间相似度、基于共频引文的对象之间的相似度等的评价.(4)潜在语义标引(LatentSemanticIndexing,LSI)

潜在语义标引(LatentSemanticIndexing,LSI)的基本思想是文本中的词与词之间存在某种潜在的语义结构,并且可以通过统计方法寻找该语义结构.LSI通过奇异值分解,将文档向量和词(Term)向量投影到一个低维空间,使得相互之间有关联的文献即使没有相同的词时也能获得相同的向量表示[6],从而达到消除词与词之间的相关性,简化文本向量的目的.

2.2显示技术

可视化显示技术是指将经过聚类处理的文献信息在计算机上以图形的形式显示出来的技术.目前常用的可视化显示技术主要有Focus+Context,Cone-Tree,Tree一map,HyperbolicTree等.

(1)Focus+Context技术

Focus+Context(聚焦+上下文)技术又称为“鱼眼”可视化技术,它通过放大聚焦结点,同时缩小周边对象,将周围信息和以细节方式显示的焦点信息结合在一起,不但可以突出重点信息,也能够揭示信息上下文关系[7].这种技术是基于人类视觉的观察特性而设计的,人们在现实生活中观察对象的时候,往往注重的某个对象的细节,而忽视了其它周围信息.Focus+Context技术检测设用户既需要细节信息又需要周围信息,同时对这两种信息的需要程度不同.因此,Focus+Context技术可以实现这两种类型的信息结合在一个单一的(动态的)显示页面中.

信息检索可视化的优势、实现技术存在的问题参考属性评定
有关论文范文主题研究: 关于信息检索的论文范文集 大学生适用: 在职论文、在职论文
相关参考文献下载数量: 48 写作解决问题: 写作技巧
毕业论文开题报告: 论文提纲、论文题目 职称论文适用: 期刊发表、初级职称
所属大学生专业类别: 写作技巧 论文题目推荐度: 经典题目

(2)Cone-Tree技术

ConeTree(锥形树)技术是Robertson,Mackinlay和Card等提出的一种利用三维图形技术对层次结构进行可视化的方法,其基本思想是利用三维图形技术将传统的二维树形表示法扩展到三维空间[8].

ConeTree利用将父节点置于一个圆锥形的顶端,在底部圆上安排子节点.对于每一颗子树,采取同样的处理方法.因此,在整体上就形成了多个圆锥组成的锥形树.它将用户感兴趣的节点置于前面,当点击某个节点时,对应的圆锥就可以转到前面,方便用户获取所需信息.与此同时,每个锥体之间透明遮拦,可以保证每个锥体能够很容易被感知,还不会妨碍后面的锥体显示,这样又可以确保用户查找时不会遗漏相关的信息.

(3)Tree一map技术

Tree一map(树图)技术是Shneiderman等人提出的一种表示层次信息的可视化模型,这是一种空间填充式的可视化显示技术,其主要思想是将整个信息集合对应到一个区域,例如一个矩形区域.节点按照他们各自的层次占据相应的大小,矩形的面积表示相应节点的权重.同时,表示一个父节点的所有子节点的矩形被表示该父节点的矩形包围着.

(4)HyperbolicTree技术

HyperbolicTree(双曲线)技术是Lamping和Rao等提出的一种基于双曲几何的可视化和操纵大型层次结构的Focus+context技术[9].这种技术在基于双曲线的圆形平面区域内显示层次结构信息,将更多的可视化空间用于显示层次结构中当前被关注的部分,同时又能把整个层次结构显示出来.

双曲线树技术被用于开发浏览器、网站地图以及其它针对大型层次结构信息的可视化工具.特别适合浏览图库、文件系统、数据仓库、Web信息资源及其空间链接结构所包含的数据.

(5)四种显示技术比较

从上表可以看到,不同的可视化显示技术各有优点,但也不足,在信息检索可视化的应用中,要根据实际合理选择一种,或者将若干种技术整合在一起.

3.信息检索可视化面临的问题

3.1未形成系统的研究结构

国内的信息检索可视化大多是对国外信息检索可视化的跟踪介绍,主要研究单位有武汉大学信息资源研究中心,中科院国家科学图书馆,中科院软件所及部分大学的图书情报学院和计算机学院等.尚处于研究的雏形阶段,未形成一个完整的研究体系.

3.2屏幕的显示面积

从理论上而言,如果检索到的信息越来,就需要向用户展示越多的模式和趋向.然而,显示的面积大小会受到电脑屏幕大小的影响.信息是海量的,然而屏幕可以显示的面积是有限的,在有限的显示面积上,信息越多,就会造成可视化环境非常拥挤,从而影响画面的清晰度,弱化对象间的差异,并让对象之间的交互关系的感知变得非常困难,这反而影响了用户检索信息.

3.3评价标准

信息检索可视化由于是对抽象体的描述,在在把它映射到二维空间后,对它的评价缺乏一种固有的准则,这对于可视化检索系统的研究是不利的.目前,尚未有为所有的信息检索可视化环境找到一个通用的评价系统.有许多问题,如可视语义框架的效率评价,视觉空间和用户行为中隐喻的影响,模糊,导航中的方向障碍等.因此,建立一个实际可行的信息检索可视化评价标准也是信息检索可视化必须要面临和解决的一个问题.

4.结语

俗话说,“一幅画胜过千言万语”.在读图的时代里,信息检索的可视化无疑是信息检索的一个新的发展点,它充分发掘了人类对图像的处理能力,提高了人类的认知能力.也使检索过程透明化,提高了用户的检索兴趣,提高了良好的人机对话环境等.虽然,信息检索的可视化目前还处于探索阶段,存在许多待解决的问题,但是我们相信,信息检索可视化的实际应用,已经不是遥不可及的梦想了.