基于内容音频检索综述

点赞:25476 浏览:118859 近期更新时间:2024-01-27 作者:网友分享原创网站原创

[摘 要]音频是一种重要的媒体,它包含丰富的听觉特征.根据基于内容的音频检索的研究现状,本文总结出基于内容音频检索系统的概念,给出音频检索的基本结构,综述了音频检索的关键技术,并展望基于内容音频检索领域的发展前景.

[关 键 词]基于内容的音频检索 音频特征提取 音频分类 音频检索

引言

随着多媒体和Inter的广泛应用和深入普及,多媒体数据的数量正在呈指数增长,音频数据作为多媒体数据的重要组成部分,其信息量也在迅速膨胀,如何快速、准确的检索到所需要的信息已经成为现代信息检索领域的一个重点.基于文本检索的常规信息检索技术已经无法满足大量音频数据的检索需要,基于内容的音频信息检索技术应运而生.

基于内容的音频信息检索突破了传统的基于文本表达的局限,直接对音频进行分析,从中抽取内容特征,然后利用这些内容特征建立索引并进行检索,避免了用字符标识音频信息的转化过程.他涉及音频数字信号处理、语音识别、信息检索、数据库系统、模式识别、人工智能、数据挖掘等许多相关技术,在Inter音乐检索、数字音乐图书馆、点歌系统等领域中具有重要的应用.

1 基于内容的音频检索的概念

基于内容的音频检索,指通过音频特征分析,对不同音频数据赋以不同语义,使具有相同语义的音频在听觉上保持相似.该技术在许多领域都有极大应用价值.

基于内容的音频检索主要有两个方面的含义:一是检索音频内容本身,如通过“哼”某音乐的曲调查找音乐;二是检索与音频内容相关的信息,如通过语音查找说话人等.

基于内容的音频索引和检索通常采用下面的步骤:

(1)将音频数据分类,通常可分为语音、音乐和噪声等类型.

(2)不同类型的音频数据可以以不同的方式进行处理和索引.如,对语音可运用语音识别技术且可基于识别过的词汇对其进行索引.

(3)查询音频片段要同样地进行分类、处理和索引.

(4)根据查询索引和数据中音频索引之间的相似性,对音频片段进行检索.

2 基于内容的音频检索系统基本结构

基于内容的音频数据库检索系统是一种重要的和关键的多媒体信息处理技术.一般可把基于内容的音频数据库检索系统看作是介于信息用户和数据库之间的一种信息怎么写作系统.在音频检索中,需要经过特征提取、音频分割、音频识别分类和索引检索这几个关键步骤[目:

特征提取指的是寻找原始音频信号表达形式,提取能代表原始信号的数据.要提取特征和属性,通常要对数据库中的多媒体数据项进行预处理.因为在检索过程中,其实是对这些特征和属性而不是对信息项本省进行搜索和比较,所以特征提取的质量决定着检索结果.

基于内容的音频检索,一般分为音频特征提取、音频识别分类、检索三个过程.在提取音频特征之前,一般还需要对音频数据进行预处理,预处理主要包括预加重和加窗,加窗使音频数据形成音频帧.特征提取音频的物理、听觉或语义特征,其中基本要素的特征提取是以音频帧为单位或者以若干帧组成的音频片段为单位来进行.音频识别分类是对音频进行归类划分,分类本身可以是一种检索方式,也可以作为检索的一个辅助手段,归类越精确,一般来说检索就越准确.检索的过程是一个匹配的过程,根据音频特征间的相似度给出检索结果.检索系统一般分为两部分:一部分是数据库的生成,即音频数据及其特征录入到数据库;一部分是数据库查询,即用户通过输入音频或输入特征字符串在数据库中查找所需要的音频.系统基本构成如图2.2所示.


该文来自:{$getarticleurl}

3 基于内容的音频检索系统特点

基于内容的音频检索技术突破了基于关 键 词匹配的传统索引技术的限制,它根据音频本身所固有的特征而不是人工标注的外部属性或者关 键 词对音频进行检索.它的核心思想是通过一定的计算处理,分析音频的结构和语义,建立它们的结构化的组织和索引,使得“无序”的音频变的“有序”,从而有利于用户的检索和浏览.

基于内容的音频检索技术的主要特点有:

(1)从媒体内容中提取信息线索.基于内容的检索突破了传统的基于表达式检索的局限,利用音频内容特征建立索引进行检索.

(2)基于内容的音频检索,犹豫内容表达的不精确,必然是一种近似的检索.结果中往往出现误检和遗漏.

(3)数据库的快速检索.在实际的多媒体数据库中,不仅数据量巨大,而且种类和数量繁多,要求基于内容的检索技术实现对多媒体信息的快速检索.

(4)作为一种多媒体技术,具有很强的交互性(用户可以参与检索过程).

4 基于内容的音频检索系统关键技术

4.1 音频特征提取

音频特征提取是整个基于内容的音频检索技术的核心技术.音频内容描述是在音频内容获取的基础之上进行的,同时是进一步进行音频特征相似度匹配的必要前提.特征提取是指寻找原始音频信号表达形式,提取能代表原始信号的数据.要抽取特征和属性,通常要对数据库中的多媒体数据项进行预处理.在检索过程,需要对这些特征和属性进行不断的搜索和比较.

4.1.1 音频时域特征的提取

可提取的音频时域特征有平均能量、过零率和静音比等.

平均能量说明了音频信号的强度,可用于静音检测,对于一个音频例子,如这个音频例子中的某一短时帧的平均能量低于一个事先设定的阈值,则可判定该短时帧为静音.

过零率指每秒内信号值通过零值的次数,一定程度上说,它说明了平均信号频率.一般语音信号由单词构成,单词又由元音和辅音交替的音节组成,辅音信号的过零率低,而元音信号的过零率高.语音信号开始和结束都大量集中了辅音信号,所以其开始和结束部分的过零率总会有显著升高,利用过零率可判断语音是否开始和结束.另外,大多数音乐信号集中在低频部分,其过零率不表现出突然升高或降落的起伏特性,所以有时也可用过零率来区分语音和音乐两种不同音频信号.

静音比表示静音的声音片段的比例.

4.1.2 音频频域特征的提取

傅里叶变换可分解出音频信号的频率成分,可提取的音频频域特征有带宽、频谱中心、谐音、音调等.

(1)带宽说明了声音的频率范围,音乐通常比语音信号具有更高的带宽;

(2)频谱中心也称亮度,是一个声音频谱能量分布的中心点.语音与音乐相比,频谱中心较低;

基于内容音频检索综述参考属性评定
有关论文范文主题研究: 关于数据库的论文范文集 大学生适用: 高校大学论文、函授毕业论文
相关参考文献下载数量: 16 写作解决问题: 如何怎么撰写
毕业论文开题报告: 论文任务书、论文题目 职称论文适用: 技师论文、初级职称
所属大学生专业类别: 如何怎么撰写 论文题目推荐度: 免费选题

(3)频率为最低频率的倍数的频谱成分称为谐音.在有谐音的声音中,频谱成分大部分是最低频率的整数倍数,音乐通常比其他声音具有更多的谐音;

(4)音调是听觉分辨声音高低的特性,完全由频率决定,可通过频谱估计.

只有阶段性的声音,如那些由音乐设备和语音产生的声音,才会产生一种音调的感觉.可根据音调的级别对声音排序.音调是一个主观特征.

4.2 音频分类与归纳

分类(classification)用于预测音频对象的所属类别.而聚类(clustering)是一个将数据集划分为若干组或类的过程,通常可以定义为音频的归类问题.分类用于判别用户提交的示例音频或音频文本属于哪个类别,也可用于将一段新的音频归入已有的分类中(音频识别).

根据音频的特征值可将音频分类.常见的分类方法是:首先计算输入音频片段的频谱中心,如果其频谱中心值比预先设定的阈值高,则认为它是音乐:否则它是语音,但由于有的音乐也具有低的频谱中心值,因此它也可能是音乐.其次,计算静音比,如果它的静音比低,则认为它是音乐:否则,认为它是语音或独奏音乐.最后计算平均过零率ZCR,如果它有着非常高的ZCR可变性,则它是语音,否则它是独奏音乐.

在这种分类方法中,特征判定的顺序是非常重要的,通常由计算的复杂性和特征的差别决定.一般首先判定差别性大、复杂性低的特征,这样可减少一个特殊音频片段将要经历的步骤数,同时也可降低所需的整个计算量.

将音频分类为语音和音乐后,就可以使用不同的技术对它们进行单独处理.

4.3 音频检索

4.3.1 语音识别和检索

语音索引和检索的基本方法是运用语音识别技术把语音信号转化为文本,然后应用IR技术进行索引和检索.除实际的发声词汇(spokenwords)外,包含在语音中的其他信息,如发音者的身份和情绪等,都有助语音索引和检索.

语音检索是采用语音识别、语音处理技术完成音频信息检索.主要包括大词汇语音识别技术检索:子词单元检索:关 键 词识别检索:对说话人的辨认进行分割检索.

(1)大词汇语音识别技术检索

这种方法是利用自动语音识别(ASR)技术把语音转换为文本,从而可以采用文本检索方法进行检索.

(2)字词单元检索

当语音识别系统处理各方面无限制主题的大范围语音资料时,识别性能会变差,尤其当一些专业词汇不在系统词库中时.一种变通的方法是利用子词索引单元,当执行查询时,用户的查询首先被分解为子词单元,然后将这些单元的特征与库中储备好的特征进行匹配.

(3)关 键 词识别检索

在无约束的语音中自动检测词或短语通常称为关 键 词的发现.利用该技术,识别或标记出长段录音或音轨中反映用户感兴趣的事件,这些标记就可以用于检索.如通过捕捉体育比赛解说词中“进球”的词语可以标记进球的内容.

(4)对说话人的辨认进行分割

这种技术是简单地辨别出说话人话音的差别,而不是识别出说的是什么,它在合适的环境中可以做到非常准确.利用这种技术,可以根据说话人的变化分割录音,并建立录音索引.如用这种技术检测视频或多媒体资源的声音轨迹中的说话人的变化,建立索引和确定某种类型的结构.

4.3.2音乐索引和检索

音乐的类型有两种:结构化的(或综合的)音乐和基于样本的音乐.一般说来,音乐索引和检索的有效技术的研发仍处于初期阶段.

(1)结构化音乐的索引和检索

结构化音乐和声音效果是由一系列指令或算法来表示的.最常见的结构化音乐是MIDI,它把音乐表示成大量的音符和控制指令.由于结构化音频的简明结构和音符描述的原因,没有必要从音频信号中抽取特征,因此结构化音频更便于检索.

对于结构化音乐和声音效果,由于两个音符序列之间的相似性定义的困难性,基于相似性的检索很复杂.目前一种可行的方法是基于音符序列的音调变化来检索音乐.其基本思想是:查询声音和数据库声音文件中的每个音符(第一个音符除外)都被转换成相对前一个音符的音调变化.音调变化有三种状态:该音符比前一音符高(U)、该音符比前一音符低(D)和该音符与前一音符相同或相似(S).按这种规则,任意一段旋律可转化为一个包含字母U、D、s的符号序列,检索任务也就变成了一个字符串匹配过程.该方法是针对基于样本的声音检索提出的,也同样适用于结构化声音检索,根据音符音阶可较容易地获得音调变化.

(2)基于样本的音乐的索引和检索

对于基于样本的音乐的索引和检索有两种通用的方法:一是基于抽取的声音特征集合,二是基于音乐音符的音调.

基于特征集的音乐检索;在这种音乐检索方法中,对每种声音(包括查询)抽取听觉特征集,将其表示成一个矢量.通过计算查询音乐和每个存储音乐片段相应的特征矢量之间的近似度来计算它们的相似性.该方法可应用于一般的声音中,包括音乐、语音和声音效果.MuscleFishLLC完成的一项研究工作就是使用该方法的一个较好的实例.在这项研究中,共使用了5个音频特征:强度、音调、亮度、带宽和谐音.这些特征随着时间的变化而变化,因此可对每个帧进行计算,然后用统计学中的均值、方差和自动相关3个参数来表示每个特征.查询矢量和每个存储的音乐片段的特征矢量之间的欧几里德距离或Manhattan距离可用作它们之间的距离.

基于音调的音乐检索;该方法与基于音调的结构化音乐检索相似.二者之间的主要区别在于基于音调的音乐检索必须抽取或估计每个音符的音调.将一段旋律转化为一系列相对音调转移序列的过程称为称为音调跟踪.音调跟踪是自动化音乐转录的简化形式,它把音乐声音转化成符号表示.该方法的基本思想为:由于音乐的每个音符都是由它的音调表示的,因此一个音乐片段或部分可表示成一个序列或音调串.检索是以查询音乐和每个存储音乐片段相应的音调串之间的相似性为基础,音调跟踪和串相似测量是检索过程的关键.

5 展望

基于内容的音乐检索主要是基于音频特征矢量匹配和近似音调匹配.计算机对信息的表达归根结底是一种状态表达,要将听觉感知的信息借助计算机进行存储与检索,这当中进行的转换难以避免实际信息的失真.对于音频检索来说,由于感官上与表达上的不一致性大大增加了检索的处理难度.因此,基于内容的音频检索只能是一种相似性检索,而无法实现传统的精确匹配检索.虽然研究人员已在基于内容的音乐检索技术方面做了大量的研究,但是为了满足大容量数据库和WWW检索的要求还有许多工作要做.

WWW上基于内容的音频检索问题,需要研究快速的大规模音频库的浏览、检索和提交:长音频的浏览,即结构化表示音频流,并设计出新形式的内容浏览界面:长音频的检索,研究通用的基于片段级的内容检索,在时间轨迹上匹配一组特征,这需要研究模糊的匹配方法:继续研究有效的听觉解析特征,以支持通用和专用的音频检索问题:用户的音频查询接口和检索引擎:音频索引问题,以满足大容量数据库和网络检索的要求.

6 结语

基于内容的音频检索是一个新兴的研究领域,在国内外仍处于研究、探索阶段.当今时代,随着现代信息技术的发展,多媒体信息可以说是无处不在,但是由于多媒体类型丰富,数据量大等特点,使得如何能高速的检索就显得尤其重要.在本绍了基于内容得音频检索系统的一般结构及相关技术.

基于内容的音频检索是一个涵盖十分广泛的研究领域,与信号处理、人感知心理研究和模式识别等学科紧密相联.为使计算机能像人那样对音频语义实现自动理解,并根据语义高级内容进行音频检索,我们面临的挑战还很多.