音频深伪
编辑音频深伪是一种人工智能,用于创造令人信服的语音句子,听起来像是特定的人在说他们没有说的话。这项技术最初是为改善人类生活的各种应用而开发的。例如,它可以用来制作有声读物,还可以帮助那些失去声音的人(由于喉咙疾病或其他医疗问题)恢复声音。在商业上,它为若干机会打开了大门。这项技术还可以创造出更加个性化的数字助理和听起来自然的语音翻译服务。音频深造,最近被称为音频操作,正变得可以用简单的移动设备或个人电脑广泛使用。不幸的是,这些工具也被用来利用音频在世界各地传播错误信息,它们的恶意使用导致了人们对音频深度伪造的恐惧。这导致了全球公众对使用音频深层造假的副作用的网络安全担忧。人们可以把它们作为一种逻辑访问的语音欺骗技术,在这里它们可以被用来操纵舆论进行宣传、诽谤或恐怖主义。每天都有大量的语音记录在互联网上传输,欺骗检测具有挑战性。然而,音频深伪攻击者不仅针对个人和组织,还针对政治家和政府。2020年初,一些骗子利用基于人工智能的软件,冒充首席执行官的声音,通过电话授权进行约3500万美元的汇款。因此,有必要对分发的任何音频录音进行认证,以避免传播错误信息。
音频深伪的类别
编辑音频深层造假可以分为三个不同的类别。基于重放的基于重放的深层造假是旨在复制对话者声音的录音的恶意作品。有两种类型:远场检测和剪切和粘贴检测。在远场检测中,受害者的麦克风录音被作为测试片段在免提电话上播放。另一方面,剪切和粘贴包括从一个依赖文本的系统中伪造所要求的句子。依赖文本的说话者验证可用于防御基于重放的攻击。目前一种检测端到端重放攻击的技术是使用深度卷积神经网络。
基于合成的
编辑基于语音合成的类别是指使用软件或硬件系统程序,人工制作人类语音。语音合成包括文本到语音,其目的是将文本实时转化为可接受的自然语音,利用文本的语言描述规则,使语音听起来与文本输入相一致。这种类型的经典系统由三个模块组成:一个文本分析模型,一个声学模型和一个声码器。生成过程通常要遵循两个基本步骤。有必要收集干净的、结构良好的原始音频与原始语音音频句子的转录文本。第二,必须使用这些数据训练文本到语音模型,以建立一个合成音频生成模型。具体来说,带有目标说话人声音的转录文本是生成模型的输入。文本分析模块对输入文本进行处理,并将其转换为语言学特征。然后,声学模块根据文本分析模块生成的语言特征,从音频数据中提取目标说话人的参数。最后,声学模块根据声学特征的参数,学习创建声乐波形。最终生成的音频文件,包括波形格式的合成模拟音频,以许多说话人的声音创建语音音频,甚至是那些没有参加训练的人。这方面的xxx个突破是由WaveNet推出的,这是一个用于生成原始音频波形的神经网络,能够模拟许多不同扬声器的特征。
多年来,这个网络已经被其他系统所超越,这些系统在每个人都能达到的范围内合成高度逼真的人工声音。不幸的是,文字转语音高度依赖于用于实现该系统的语音语料库的质量,而创建整个语音语料库是很昂贵的。另一个缺点是,语音合成系统不能识别句号或特殊字符。另外,歧义问题一直存在,因为以同样方式书写的两个词可能有不同的含义。基于模仿的音频deepfake基于模仿的音频是一种将一个说话人--原话--的原话进行转换的方式,使其听起来像另一个说话人--目标人。基于模仿的算法将口语信号作为输入,并通过改变其风格、语调或音调来改变它,试图在不改变语言信息的情况下模仿目标声音。这种技术也被称为语音转换。
内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/167859/