梅尔倒频谱

编辑
本词条由“匿名用户” 建档。
在声音处理中,梅尔倒频谱(MFC)是一种声音短期功率谱的表示方法,是基于频率的非线性梅尔标度上的对数功率谱的线性余弦变换。 Mel-frequencycepstralcoefficients(MFCCs)是共同构成MFC的系数。它们来自于音频片段的一种倒频谱表示(非线性频谱的一种)。倒频谱和梅尔频率倒频谱之间的区别是,在MFC中,频段在梅尔刻度上是等距的,这比正常频谱中使用的线性间隔的频段更接近人...

梅尔倒频谱

编辑

在声音处理中,梅尔倒频谱(MFC)是一种声音短期功率谱的表示方法,是基于频率的非线性梅尔标度上的对数功率谱的线性余弦变换。

Mel-frequency cepstral coefficients(MFCCs)是共同构成MFC的系数。它们来自于音频片段的一种倒频谱表示(非线性频谱的一种)。倒频谱和梅尔频率倒频谱之间的区别是,在MFC中,频段在梅尔刻度上是等距的,这比正常频谱中使用的线性间隔的频段更接近人类听觉系统/的反应。这种频率扭曲可以更好地表示声音,例如,在音频压缩中,可能会降低传输带宽音频信号的存储要求。

MFCCs通常按以下方法得出:

  • 对信号进行傅里叶变换(窗口摘录)。
  • 使用三角重叠窗口或余弦重叠窗口,将上述获得的频谱功率映射到梅尔刻度。
  • 对梅尔对数功率列表进行离散余弦变换,就像它是一个信号一样。
  • MFCC是产生的频谱的振幅。

这个过程可以有变化,例如:用于映射尺度的窗口的形状或间隔的不同,或者增加动态特征,如delta和delta-delta(一阶和二阶帧间差异)系数。

欧洲电信标准协会在21世纪初定义了一个标准化的MFCC算法,以用于移动电话。

MFCC用于说话者的识别

编辑

因为Mel-frequency bands在MFCC中是均匀分布的,它们与人类的语音系统非常相似,因此,MFCC可以有效地用于描述说话者,例如,它可以用来识别说话者的手机模型细节,并进一步识别说话者的细节。

谈到识别手机的语音识别,手机中的电子元件的生产是有公差的,因为不同的电子电路实现没有完全相同的传递函数。如果执行任务的电路来自不同的制造商,那么从一个实现到另一个实现的传递函数的不同之处就变得更加突出。因此,每部手机对输入的语音都会引入卷积失真,对手机的录音留下独特的影响。因此,通过将原始频谱与每个手机特有的传递函数相乘,再通过信号处理技术,可以从记录的语音中识别出一个特定的手机。因此,通过使用MFCC,人们可以对手机录音进行定性,以识别手机的品牌和型号。

考虑到手机的录音部分是线性时间不变(LTI)滤波器。

脉冲响应--h(n),录制的语音信号y(n)作为响应输入x(n)的滤波器的输出。

因此,y(n)=x(n)∗h(n){y(n)=x(n)*h(n)}(卷积)。

由于语音不是静止的信号,它被分为重叠的帧,其中的信号被认为是静止的。因此,录制的输入语音的p t h {displaystyle p{th}}短期片段(帧)是。

y p w ( n ) = [ x ( n ) w ( p W - n ) ] ∗ h ( n ) {_{p}w(n)=[x(n)w(pW-n)]*h(n) } 。

其中w(n):长度为W的窗化函数。

因此,按照规定,录制的语音的手机足迹是卷积失真,有助于识别录音手机。

手机的嵌入身份需要转换到一个更好的可识别的形式,因此,采取短时傅里叶变换。

Y p w ( f ) = X p w ( f ) H ( f ) {\displaystyle Y_{p}w(f)=X_{p}w(f)H(f) }

H ( f ) {\displaystyle H(f)}可以被认为是产生输入语音的联合传递函数,而录制的语音Y p w ( f ) {\displaystyle Y_{p}w(f)}可以被认为是手机的原始语音。

梅尔倒频谱

所以,声带和手机录音机的等效传递函数被认为是录制的语音的原始来源。

其中Xew(f)是激励函数,X v ( f ) {displaystyle X_{v}(f)}是p t h {displaystyle p{th}}帧中语音的声道传递函数,H ′ ( f ) {displaystyle H'(f)}是表征手机的等同传递函数。

这种方法对说话人的识别很有用,因为设备识别

内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/192972/

(1)
词条目录
  1. 梅尔倒频谱
  2. MFCC用于说话者的识别

轻触这里

关闭目录

目录