语音编码
编辑语音编码是对包含语音的数字音频信号进行数据压缩的一种应用。语音编码使用语音特定的参数估计,使用音频信号处理技术对语音信号进行建模,并结合通用数据压缩算法在紧凑的比特流中表示生成的建模参数。
语音编码的一些应用是移动电话和IP语音(VoIP)。移动电话中使用最广泛的语音编码技术是线性预测编码(LPC),而VoIP应用中使用最广泛的是LPC和改进的离散余弦变换(MDCT)技术。
语音编码中使用的技术类似于音频数据压缩和音频编码中使用的技术,其中心理声学知识仅用于传输与人类听觉系统相关的数据。例如,在语音带语音编码中,仅传输400Hz到3500Hz频带中的信息,但重构的信号仍然足以提供可理解性。
语音编码与其他形式的音频编码的不同之处在于,语音是比大多数其他音频信号更简单的信号,并且可以获得更多关于语音属性的统计信息。结果,在语音编码上下文中可能不需要一些与音频编码相关的听觉信息。在语音编码中,最重要的标准是在传输数据量有限的情况下保持语音的可懂度和“悦耳”。
此外,大多数语音应用程序需要低编码延迟,因为长编码延迟会干扰语音交互。
语音编码的类别
编辑语音编码器有两种类型:
样本压扩被视为语音编码的一种形式
编辑从这个角度来看,传统PCM数字电话中使用的A-law和μ-law算法(G.711)可以看作是语音编码的早期先驱,每个样本只需要8位,但实际上提供了12位的分辨率.对数压扩定律与人类听觉感知一致,因为低幅度的噪声沿着低幅度的语音信号被听到,但被高幅度的信号掩盖。虽然这会在音乐信号中产生不可接受的失真,但语音波形的尖峰性质与语音的简单频率结构结合为具有单一基频的周期性波形偶尔添加噪声突发,使这些非常简单的瞬时压缩算法可以接受语音。
当时尝试了各种各样的其他算法,主要是在delta调制变体上,但经过仔细考虑,早期数字电话系统的设计者选择了A-law/μ-law算法。在他们设计的时候,他们以非常低的复杂性减少了33%的带宽,这是一个很好的工程折衷方案。它们的音频性能仍然可以接受,并且无需在固定电话网络中更换它们。
2008年,具有可扩展结构的G.711.1编解码器被ITU-T标准化。输入采样率为16kHz。
现代语音压缩
编辑后期语音压缩方面的大部分工作都是出于对安全军用无线电数字通信的军事研究的推动,其中需要非常低的数据速率才能在恶劣的无线电环境中有效运行。同时,以VLSI电路的形式提供的处理能力远远超过早期压缩技术的处理能力。因此,现代语音压缩算法可以使用比1960年代更复杂的技术来实现更高的压缩比。
这些技术可通过用于民用应用的开放研究文献获得,从而允许创建具有比之前的模拟系统更高的信道容量的数字移动电话网络。
最广泛使用的语音编码算法是基于线性预测编码(LPC)。特别是,最常见的语音编码方案是基于LPC的码激励线性预测(CELP)编码,例如在GSM标准中使用。在CELP中,建模分为两个阶段,一个是对频谱包络建模的线性预测阶段,另一个是基于代码本的线性预测模型残差模型。在CELP中,线性预测系数(LPC)被计算和量化,通常作为线谱对(LSP)。除了信号的实际语音编码外,通常还需要使用信道编码进行传输,避免传输错误造成的损失。通常,语音编码和信道编码方法必须成对选择,语音数据流中更重要的比特受到更鲁棒的信道编码的保护,以获得最佳的整体编码效果。
改进的离散余弦变换(MDCT)是一种离散余弦变换(DCT)算法,被改编成一种称为LD-MDCT的语音编码算法,用于1999年引入的AAC-LD格式。MDCT已被在IP语音(VoIP)应用中被广泛采用,例如2006年推出的G.729.1宽带音频编解码器、Apple于2010年推出的Facetime(使用AAC-LD)、和CELT编解码器2011年推出。
Opus是一个免费的软件语音编码器。它结合了MDCT和LPC音频压缩算法。它被广泛用于WhatsApp中的VoIP呼叫。PlayStation4视频游戏机还使用CELT/Opus编解码器进行其PlayStationNetwork系统聚会聊天。
Codec2是另一个免费软件语音编码器,它设法实现了非常好的压缩,低至700比特/秒。
内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/132222/
评论列表(1条)
可以加上参考文献吗?