声码器

编辑

声码器（/ v oʊ ķ oʊ d ər /，一个混成的话音和编码器）是一个类别的语音编解码器的是分析和合成的人声信号的音频数据压缩、复用、话音加密或语音变换。

声码器是荷尔·杜德利（Homer Dudley）在贝尔实验室（Bell Labs）于1938年发明的，它是一种合成人类语音的方法。这项工作被发展为信道声码器，它被用作电信的语音编解码器，对语音进行编码以节省传输带宽。

通过对控制信号进行加密，可以确保语音传输不会被拦截。它以这种方式的主要用途是用于安全的无线电通信。这种加密方法的优点是，不发送任何原始信号，仅发送带通滤波器的包络。接收单元需要设置为相同的滤波器配置，以重新合成原始信号频谱的版本。

声码器

声码器还被广泛用作电子乐器。声码器的解码器部分称为voder，可以独立用于语音合成。

声码器理论

编辑

声码器的人声包括由所述开口和所述的开闭生成的声音的声门由声带，其产生与许多周期性波形的谐波。然后，基本声音被鼻子和喉咙（复杂的共振管道系统）过滤，以受控方式产生谐波含量（共振峰）的差异，从而产生了语音中使用的多种声音。还有另一组声音，称为清音和爆破音，由嘴以不同的方式创建或修改。

声码器通过测量语音的频谱特性随时间的变化来检查语音。这导致在用户说话时在任何特定时间代表这些修改频率的一系列信号。简而言之，信号被分为多个频带（此数目越大，分析越准确），并且每个频带上存在的信号电平立即表示频谱能量含量。为了重新创建语音，声码器只需逆转该过程，将宽带噪声源通过一个根据原始记录的数字序列对频率内容进行滤波的阶段即可对其进行处理。

具体地，在编码器中，输入通过多频带滤波器，然后每个频带通过包络跟随器，并且来自包络跟随器的控制信号被发送到解码器。解码器将这些（振幅）控制信号施加到滤波器通道的相应放大器，以进行重新合成。

丢弃有关原始语音信号瞬时频率的信息（不同于其频谱特性）；对于声码器最初用作加密辅助功能而言，保留此信息并不重要。正是声码处理的“非人性化”方面使它在流行音乐和音频娱乐中创建特殊的语音效果时很有用。

声码器处理仅通过通信链路发送声音模型的参数，而不是逐点重新创建波形。由于参数与原始语音波形相比变化缓慢，因此可以减少传输语音所需的带宽。这允许更多的语音信道利用给定的通信信道，例如无线电信道或海底电缆。

模拟声码器通常通过将信号分成多个调谐的频带或范围来分析输入信号。甲调制器和载波信号通过一系列这些调谐的发送带通滤波器。在典型的机器人声音的示例中，调制器是麦克风，载体是噪声或锯齿波形。通常有8至20个频段。

每个单独的分析频带的调制器的幅度会产生一个电压，该电压用于控制每个相应载波频带的放大器。结果是，随着每个频带中离散幅度的变化，调制信号的频率分量被映射到载波信号上。

通常情况下，没有清晰的乐队或演奏会渠道。这适用于典型语音分析频带之外的频率，但在语音中仍然很重要。例如，以字母s、f、ch或任何其他简单的声音开头的单词。这些可以与载波输出混合以提高清晰度。结果是可识别的语音，尽管听起来有些“机械”。声码器通常包括第二系统，该第二系统使用噪声发生器而不是基频来产生清音。

在信道声码器算法中，在分析信号的两个分量中，仅考虑幅度分量而仅忽略相位分量往往会导致声音不清晰。有关纠正此问题的方法，请参见相位声码器。

现代实现

编辑

即使需要记录多个频率和其他清晰的声音，声码器系统的压缩也令人印象深刻。标准语音记录系统捕获大约500 Hz至3,400 Hz的频率，其中语音中使用的大多数频率都位于此频率，通常使用8 kHz的采样率（略大于奈奎斯特速率）。采样分辨率通常为每个采样分辨率12位或更多位（标准为16位），最终数据速率在96-128 kbit / s范围内，但是一个好的声码器可以提供语音仿真的良好效果，而仅需少至2.4 kbit / s的数据。

诸如ITU G.729之类的“收费质量”语音编码器已在许多电话网络中使用。特别是G.729的最终数据速率为8 kbit / s，具有出色的语音质量。G.723在5.3 kbit / s和6.4 kbit / s的数据速率下质量稍差。许多语音声码器系统使用较低的数据速率，但低于5 kbit / s的语音质量开始迅速下降。

NSA加密系统中使用了几种声码器系统：

LPC-10、FIPS Pub 137、2400 bit / s，使用线性预测编码。
STU-III中使用的代码激励线性预测（CELP）、2400和4800 bit / s、联邦标准1016。
16 kbit / s的连续可变斜率增量调制（CVSD），用于诸如KY-57的宽带加密器中。
混合激励线性预测（MELP）、MIL STD 3005、2400 bit / s，用于未来窄带数字终端FNBDT（NSA的21世纪安全电话）。
自适应差分脉冲编码调制（ADPCM），以前的ITU-T G.721，在STE安全电话中使用的32 kbit / s

（ADPCM是不正确的声码器，而是一个波形编解码器。国际电联已与其他一些ADPCM编解码器为G.726一起聚集G.721）。

声码器目前还用于发展心理物理学、语言学、计算神经科学和人工耳蜗研究。

当今用于通信设备和语音存储设备中的现代声码器基于以下算法：

代数码激励线性预测（ACELP 4.7 kbit / s – 24 kbit / s）
混合激励线性预测（MELPe 2400、1200和600 bit / s）
多频带激励（AMBE 2000 bit / s – 9600 bit / s）
正弦脉冲表示（SPR 600 bit / s – 4800 bit / s）
强大的高级低复杂度波形插值（RALCWI 2050bit / s，2400bit / s和2750bit / s）
三波激励线性预测（TWELP 600 bit / s – 9600 bit / s）
噪声健壮的声码器（NRV 300位/秒和800位/秒）

基于线性预测

编辑

自1970年代后期以来，大多数非音乐声码器已使用线性预测实现，从而通过全极点IIR 滤波器估算目标信号的频谱包络（共振峰）。在线性预测编码中，全极点滤波器取代了其前身的带通滤波器组，并在编码器处用于使信号变白（即，使频谱展平），在解码器处再次用于重新应用目标的频谱形状语音信号。

这种滤波的一个优点是线性预测变量频谱峰的位置完全由目标信号确定，并且可以与要滤波的时间段所允许的精度一样。这与使用固定宽度滤波器组实现的声码器相反，在声码器中，频谱峰值通常只能确定在给定频带的范围内。LP滤波的缺点还在于，具有大量组成频率的信号可能会超出线性预测滤波器可以表示的频率数量。此限制是LP编码几乎总是与高压缩语音编码器中的其他方法一起使用的主要原因。

波形内插

编辑

WB Kleijn于1995年左右在AT＆T贝尔实验室开发了波形内插（WI）声码器，随后AT＆T为DoD安全声码器竞赛开发了低复杂度版本。加利福尼亚大学圣巴巴拉分校对WI编码器进行了显着增强。AT＆T拥有与WI相关的核心专利，而其他机构则拥有其他专利。

内容由匿名用户提供，本内容不代表vibaike.com立场，内容投诉举报请联系vibaike.com客服。如若转载，请注明出处：https://vibaike.com/117597/