多模态信息融合的视频检索方法

点赞:26013 浏览:119261 近期更新时间:2024-01-30 作者:网友分享原创网站原创

【摘 要】视频是一种没有结构的数据流,是集图像、声音和文本为一体的综合性媒体信息.正是由于视频结构的复杂性和难描述性,单一的特征或模型很难得到较好的查询效果.多模态信息融合的方法针对视频的图像、声音、文本等多模态信息分别进行查询,并通过有效融合得到优于任何单一检索模块的查询结果.

【关 键 词】视频检索;信息融合;视频检索;运动目标;监控视频

一、引言

在计算机视觉领域中,视频图像中运动目标检测与分割是一个重要的研究课题,它是对视频图像做进一步处理、分析和理解的基础,在机器人导航、智能监控系统、交通监测、医学图像处理以及视频图像压缩和编码等领域有着广泛的应用.在许多监控场所,场景中的背景往往比较复杂,具体到每个像素点,其运动或为多模态或为单模态.数据规模的庞大和增长的快速是学术界和商业应用中关注的新热点,信息时代,数据结构日益繁杂,数据规模急剧膨胀.数据结构的繁杂体现在数据模态种类、模态间融合形式的多样化上,特别是有了用户的参与,数据内容更加丰富.

二、视频检索

视频检索就是在视频数据库中找到与查询相关的视频片段,由于视频具有复杂的层次结构并且其中存在着图像声音等其他多媒体信息,所以视频检索较其他类的多媒体检索来说更加复杂.目前国内基于视频媒体信息检索的研究还处于初级阶段,从各类文献检索较少找到相关的比较成熟的项目和论文,个别研究者只涉及了基于内容的视频媒体检索技术的一个或几个分支.

三、基于一种快速运动目标视频检索

这种动态的背景模型可以很好的适应光线的变化,缓慢移动的目标等,它最大的特点是可以处理由于背景的来回运动而灰度分布呈现多峰的情况.然而这种算法需要对每一个点都用一个模型来描述,在不降低检测结果的前提下提高实时性.具体做法是融入空间相关性和融入时间相关性.在视频图像背景区域固定不动时,常用的运动目标检测方法有光流法、相邻分差法和背景差分法.

四、基于关系代数的多模态信息融合视频检索

文本检索模块主要针对视频中包含的文本信息进行查询,它将自动语音识别得到的脚本信息,字符识别得到的画面文字信息和从视频解码中得到的字幕信息进行综合整理,并对应到相应的镜头,然后利用布尔查询方法针对查询处理得到的关 键 词在已建立的视频文本特征索引结构上进行查询.该模块利用W等于TF×IDF计算查询词在查询结果中的权重,并利用其计算每一个查询得到的镜头的置信度,按照置信度的值对结果进行排序,其中TF和IDF分别代表单词频率以及逆文档频率.

多模态信息融合的视频检索方法参考属性评定
有关论文范文主题研究: 关于信息检索的论文范文集 大学生适用: 自考论文、硕士毕业论文
相关参考文献下载数量: 55 写作解决问题: 毕业论文怎么写
毕业论文开题报告: 文献综述、论文摘要 职称论文适用: 杂志投稿、高级职称
所属大学生专业类别: 毕业论文怎么写 论文题目推荐度: 优秀选题

五、基于直方图熵差的镜头检测方法

直方图熵差作为镜头检测度的镜头检测方法,使用连续帧间熵差检测突变,使用隔帧熵差扩大渐变效果,使用滑动窗口法计算出适应阈值可同时进行突变和渐变镜头的检测,使用最大熵确定分段全局最佳阈值消除滑动窗口法局部极大值造成的误捡.镜头边界检测的基本思想是通过比较视频序列的帧间差异来寻找镜头边界变化的规律.基于直方图方法不使用像素位置信息,只是考虑像素亮度和颜色的统计值,这样就降低对噪声和运动的敏感性,是目前最常用的镜头检测方法.


六、视频多特征的综合检索方法

基于内容视频检索还要解决多种检索手段相结合的问题,以提高检索的效率.对于单一特征检索手段,由于其约束信息不足,在返回目标视频的同时往往会返回大量其他也满足此检索要求的视频.采用多个检索手段相结合的方法无疑可提供更多的约束而使得返回视频中目标视频的比率得到提高,但检索手段间的融合是所要解决的问题.

七、结束语

基于运动目标的监控视频检索是一种基于对象的视频检索方法,通过对监控视频的分析获得运动目标,以运动目标为对象提取特征,在一定程度上提高了检索准确率.该方法具有一定的实用性,为警方在监控视频中查找嫌疑车辆或嫌疑人员提供帮助.基于内容的视频检索是当前信息检索的研究热点,它以图象处理、模式识别、计算机视觉、图象理解等领域的知识为基础,从认知科学、人工智能、数据库管理系统及人机交互、信息检索等领域,引入新的媒体数据表示和数据模型,实现对视频数据的有效检索.

2013年全国大学生创新创业训练计划立项项目(2013XKCX209).