计算听觉场景分析

计算听觉场景分析（CASA）是通过计算手段对听觉场景分析的研究。从本质上讲，CASA系统是机器听觉系统，旨在以人类听众的方式分离声源的混合物。CASA与盲目的信号分离领域不同，因为它（至少在某种程度上）是基于人类听觉系统的机制，因此使用的是不超过两个麦克风的声学环境录音。它与鸡尾酒会问题有关。

计算听觉场景分析的原理

编辑

由于CASA的作用是模拟听觉系统的功能部分，因此有必要用已知的物理模型来看待生物听觉系统的部分。由外耳、中耳和内耳三个区域组成，听觉外围作为一个复杂的换能器，将声音振动转换为听觉神经的动作电位。外耳由外耳、耳道和耳鼓组成。外耳像一个声学漏斗，帮助定位声源。耳道作为一个谐振管（像一个风琴管），可以放大2-5.5千赫兹的频率，最大放大率约为11分贝，发生在4千赫兹左右。作为听觉器官，耳蜗由两层膜组成，即赖斯纳膜和基底膜。基底膜通过特定的刺激频率与基底膜特定区域的谐振频率相匹配，对音频刺激进行移动。基底膜的运动使内毛细胞向一个方向移动，这在螺旋神经节细胞中编码了一个半波整流的动作电位信号。这些细胞的轴突构成了听觉神经，对整流刺激进行编码。听觉神经的反应选择某些频率，与基底膜相似。对于较低的频率，纤维表现出相位锁定。高等听觉通路中心的神经元对特定的刺激特征进行调谐，如周期性、声音强度、振幅和频率调制。通过后部皮层区域，包括后部颞上叶和后部扣带，ASA也有神经解剖学上的关联。研究发现，在阿尔茨海默病患者中，ASA以及隔离和分组操作的障碍会受到影响。

系统结构

编辑

蜗牛图

编辑

作为CASA处理的第一阶段，蜗牛图创造了输入信号的时间-频率表示。通过模仿外耳和中耳的组成部分，信号被分解成不同的频率，由耳蜗和毛细胞自然选择。由于基底膜的频率选择性，一个滤波器组被用来模拟该膜，每个滤波器都与基底膜上的一个特定点相关。由于毛细胞产生尖峰模式，模型的每个滤波器也应在脉冲响应中产生类似的尖峰。使用gammatone滤波器提供的脉冲响应是伽马函数和音调的乘积。伽马音滤波器的输出可以被视为基底膜位移的测量。大多数CASA系统表示听觉神经中的发射率，而不是基于尖峰的。

计算听觉场景分析

为了得到这一点，滤波器组的输出要经过半波整流，然后再加上一个平方根。(其他模型，如自动增益控制器也已实现）。半整流波类似于毛细胞的位移模型。毛细胞的其他模型包括Meddis毛细胞模型，它与gammatone滤波器组配对，通过模拟毛细胞的转导。基于这样的假设：每个毛细胞内有三个发射物质库，发射物质的释放与基底膜的位移程度成正比，释放与神经纤维中产生尖峰的概率相等。这个模型复制了CASA系统中的许多神经反应，如整流、压缩、自发发火和适应。

关联图

编辑

通过统一2个音高理论流派，建立了音高感知的重要模型。位置理论（强调已解决的谐波的作用）时间理论（强调未解决的谐波的作用）相关图通常在时域中通过模拟听觉神经发射活动与每个滤波器通道的输出的自相关计算出来。通过汇集跨频率的自相关，汇总的相关图中的峰值位置与感知的音高相对应。

交叉相关图

编辑

于耳朵在不同的时间接收音频信号，所以可以通过使用从两只耳朵检索的延迟来确定声源。通过交叉关联左、右声道（的模型）的延迟，重合的峰值可以被归类为同一局部的声音，尽管它们的时间位置。

内容由匿名用户提供，本内容不代表vibaike.com立场，内容投诉举报请联系vibaike.com客服。如若转载，请注明出处：https://vibaike.com/167891/