基于MFCC相似度和谱熵的端点检测算法

点赞:24000 浏览:108260 近期更新时间:2024-02-27 作者:网友分享原创网站原创

摘 要:为提高低信噪比环境下语音端点检测的准确率,提出了一种基于Mel倒谱参数相似度和谱熵的端点检测算法.首先,提取语音帧的的Mel频率倒谱参数,将前十帧声信号作为背景噪声,然后计算每一帧语音和噪声MFCC的相关系数距离,结合MFCC相似距离与谱熵做综合判决.实验结果表明,在低信噪比环境下此方法相对谱熵法能够提高检测准确率.

关 键 词:语音信号处理;端点检测;Mel频率倒谱参数;相关系数;谱熵

中图分类号:TN912.334文献标识码:A文章编号:1004373X(2013)21006703

0引言

端点检测算法一直是语音信号处理的一个研究热点,准确的端点检测可以提高语音识别的准确率,用于语音增强则可以准确地更新噪声谱.传统的端点检测算法采用短时能量、过零率和自相关系数等方法,在低信噪比条件下性能下降明显.许多新的端点检测方法相继被提出,如在语音端点检测中应用希尔伯特变换[1]、基于谱熵的端点检测[2]、基于高阶统计量的特征[3]等等,然而以上方法在强噪声环境下仍然不够理想.Mel倒谱系数能较好地构造人的听觉模型,谱熵有较好的检测效果.本文通过对两种特征综合加权得到一个表现更稳健的新特征,该方法能在多种噪声环境下得到较好的效果,提高了谱熵法在低信噪比环境下检测的准确率.


1算法描述

1.1MFCC相似度计算

人耳对低频信号感知灵敏,对高频信号则感知模糊,不同频率范围内的语音信号会引起人耳基础膜不同位置的振动[4].MFCC通过构造带通滤波器组来模仿人耳的听觉特性,减少噪声对语音的干扰.

在提取MFCC特征参数之前,对声信号做预加重、加窗、分帧等预处理[5].定义一个有[M]个三角带通滤波器的滤波器组,将预处理后的频谱能量乘以三角带通滤波器,得到每个滤波器的输出能量:

式中:[Xa(k)]为信号的傅里叶变换;[Hm(k)]为三角带通滤波器的频率响应.将每个三角滤波器的输出[S(m)]取对数,从而得到相应频带的对数功率谱.对得到的对数功率谱做DCT变换,得到MFCC[6]:

相似度是用来测量两个对象之间相似程度的,本文采用了相关系数距离来测度MFCC参数的相似度.检测定声信号前10帧为背景噪声,求前10帧MFCC参数的平均值,得到背景噪声的MFCC参数近似初始值.为使当前参数能实时追踪背景噪声,对背景噪声的MFCC参数按下列公式更新[6]:

式中:[C]为前10帧背景噪声的MFCC均值;[α]为加权因子;[Cn]为当前帧的MFCC参数.求每一帧MFCC参数[Cn]与[Cnoise]的相似距离[d(Cn,Cnoise)],得到MFCC相关系数距离曲线.按下式求解相关系数距离:

1.2谱熵特征计算

语音抽样频率为8kHz,对语音分帧和加窗,帧长为32ms,按帧间50%的重叠进行256点的FFT变换[7].语音的能量主要集中在250~3500Hz,将该频谱范围内的信号分为13个子带,根据子带信噪比的不同调整其在整个谱熵计算中的权值[8].每个子带的能量为:

[Si等于(GkR2k)](5)

式中:[Rk]为对应子带的傅里叶变换的第[k]个幅度值,[Gk]为加权因子,[Gk]的估计公式为[9]:

1.3两种特征联合检测

熵在信息论中表示信息的有序程度,语音信号的有序程度远高于噪声的有序程度[10].Mel频率模拟了人耳的听觉特性,提取语音和噪声的MFCC并利用它们的相关系数距离进行端点检测,可以在低信噪比环境下较好地区分语音段和非语音段.这两种特征冗余度低,本文对两种特征值分别赋予权重构造出一个新的特征,利用新的特征值进行端点检测.

当信噪比低于-5dB时,MFCC相似度检测方法准确率高于谱熵法,为了获得尽可能高的准确率,在信噪比低于-5dB时赋予MFCC相似度特征更高的权值.本文通过计算当前帧各子带先验信噪比的和来估计当前帧的信噪比,定义如下:

[SnrSumi等于j等于1nξ(j)](11)

基于MFCC相似度与谱熵的新特征定义如下:

[Ti等于(4+20/SnrSumi)di+Hi,SnrSumi≤204di+Hi,SnrSumi>20](12)

2实验结果与分析

实验选用了两类噪声,一类是选自NOISEX92噪声库的白噪声、坦克噪声,另一类噪声由短波接收机采集得到,合成的带噪语音信号信噪比为-10~10dB.将端点检测函数的判决结果与源文件进行比较,计算判决的准确率.其中,错误帧数等于语音错判为噪声的帧数加上噪声错判为语音的帧数,准确率为判断准确的帧数占总帧数的百分比.

图1中,实线表示一段语音的开始,虚线为该段语音的结尾.(a)为纯净语音,(b)为带噪语音,(c)为新特征的检测结果,(d)为谱熵端点检测结果,(e)为MFCC相似度端点检测结果.从图(d)看出,谱熵法未检测出图(a)中第5、8、9、12段语音;从图(e)看出,MFCC相似度未检测出图(a)中第4段语音;从图(c)可以看出本文提出的方法可以得到更高的准确率,漏检最少.

图2给出的是在信噪比为-5dB时短波信道噪声下,三种算法的检测效果.由人耳辨别语音并在图(a)中标示出语音段的位置.随着信噪比的提高,MFCC相似距离相对谱熵法检测的准确率有所下降,但二者联合得到的新特征仍具有较高的准确率.

MFCC相似距离算法性能比较结果

由图3可以看出,在-10~-5dB之间,在坦克噪声、白噪声及短波信道噪声下,与谱熵法比较,算法性能有了改善,在0dB以上所提算法与谱熵法性能接近.当信噪比降低至-5dB以下时,谱熵法的漏检逐渐增多,MFCC相似度距离检测准确率较高.本文所选取的Mel倒谱特征是识别语音有效的特征,与谱熵法进行联合判决时能得到更高的检测率,表现出比单纯使用谱熵法更好的性能.3结论

本文提出了一种基于MFCC和谱熵的端点检测算法.Mel频率很好地模拟了人耳的听觉特性,提取出的语音和噪声的MFCC相似度距离可以很好地识别语音段和非语音段,与谱熵法联合使用时可以得到更高的检测率.实验结果表明,该算法性能良好,改善了谱熵法在低信噪比下的表现.