语音处理

编辑
本词条由“匿名用户” 建档。

语音处理是对语音信号和信号处理方法的研究。信号通常以数字表示形式进行处理,因此语音处理可以看作是数字信号处理的一种特殊情况,应用于语音信号。语音处理的方面包括语音信号的获取、操作、存储、传输和输出。输入称为语音识别,输出称为语音合成。 语音处理和识别的早期尝试主要集中在理解一些简单的语音元素,如元音。1952年,贝尔实验室的三位研究人员斯蒂芬.Balashek、R.Biddulph和KHDavis...

语音处理

编辑

语音处理是对语音信号和信号处理方法的研究。信号通常以数字表示形式进行处理,因此语音处理可以看作是数字信号处理的一种特殊情况,应用于语音信号。语音处理的方面包括语音信号的获取、操作、存储、传输和输出。输入称为语音识别,输出称为语音合成

语音处理的历史

编辑

语音处理和识别的早期尝试主要集中在理解一些简单的语音元素,如元音。1952年,贝尔实验室的三位研究人员斯蒂芬.Balashek、R.Biddulph和KHDavis开发了一种系统,可以识别单个说话者所说的数字。1940年代报道了使用频谱分析的语音识别领域的开创性工作

线性预测编码(LPC)是一种语音处理算法,由名古屋大学的板仓文忠和日本电报电话(NTT)的斋藤修三于1966年首次提出。BishnuS.Atal进一步发展了LPC技术和1970年代贝尔实验室的ManfredR.Schroeder。LPC是IP语音(VoIP)技术的基础,以及语音合成器芯片,例如Speak&Spell中使用的德州仪器LPC语音芯片1978年的玩具

1990年发布的首批商用语音识别产品之一是DragonDictate。1992年,由劳伦斯·拉宾纳(LawrenceRabiner)和贝尔实验室的其他人开发的技术被AT&T在其语音识别呼叫处理服务中使用,以在没有人工接线员的情况下路由呼叫。至此,这些系统的词汇量已经超过了人类的平均词汇量。

到2000年代初,占主导地位的语音处理策略开始从隐马尔可夫模型转向更现代的神经网络深度学习

语音处理的技术

编辑

动态时间扭曲

动态时间扭曲(DTW)是一种用于测量两个时间序列之间相似性的算法,其速度可能会有所不同。通常,DTW是一种计算两个给定序列(例如时间序列)之间的最佳匹配的方法,具有一定的限制和规则。最佳匹配由满足所有限制和规则并且具有最小成本的匹配表示,其中成本计算为每个匹配的索引对在它们的值之间的xxx差的总和。

隐马尔可夫模型

一个隐马尔可夫模型可以表示为最简单的动态贝叶斯网络。该算法的目标是在给定观测值列表y(t)的情况下估计隐藏变量x(t)。通过应用马尔可夫性质,在给定隐藏变量x的值的情况下,隐藏变量x(t)在时间t的条件概率分布仅取决于隐藏变量x(t−1)的值。类似地,观测变量y(t)的值仅取决于隐藏变量x的值(t)(都在时间t)。

人工神经网络

人工神经网络(ANN)基于称为人工神经元的连接单元或节点的集合,它们对生物大脑中的神经元进行松散的建模。每个连接,就像生物大脑中的突触一样,可以将信号从一个人工神经元传输到另一个人工神经元。接收信号的人工神经元可以对其进行处理,然后向与其连接的其他人工神经元发出信号。在常见的ANN实现中,人工神经元之间连接处的信号是实数,每个人工神经元的输出是通过其输入之和的某个非线性函数计算的。

语音处理

语音处理的应用

编辑

内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/132219/

(4)
词条目录
  1. 语音处理
  2. 语音处理的历史
  3. 语音处理的技术
  4. 动态时间扭曲
  5. 隐马尔可夫模型
  6. 人工神经网络
  7. 语音处理的应用

轻触这里

关闭目录

目录