译者 | 李睿
审校 | 梁策 孙淑娟
人工智能(AI)技术在过去几年发展迅速,为商业人士提供了一种深入学习模式。尽管离在音频世界大展身手还需要一些时间,但人们已经看到AI在视频和图像处理方面的悄然崛起。
作为人工智能的一部分,机器学习改变了人们使用配音技术的方式。人们熟悉的Cortana、Siri、Alexa许多语音助手都采用了配音技术。也正是由于人工智能技术的进步,AI产出的声音变得比以往任何时候都更加真实,并且在自然语音处理方面做得更加出色。
本文将讨论机器学习和人工智能已经取得的进展,以及它们如何对语音技术提升产生的影响。
1.机器学习如何改进语音技术
(1)音频更智能
随着对语音技术的需求开始增长,自动语音识别(ASR)方面的提供商正加大语音识别产品的创新,以满足人们的更多需求。
语音识别技术的用户在增加,市场规模也在扩大。根据一项研究,到2026年,全球语音识别市场规模将增长到220亿美元。这种巨大的转变将为自动语音识别(ASR)带来挑战,推动其创新并成功应对同种语言中的不同方言,比如以英语为母语的人在不同的国家和地区(例如澳大利亚、英格兰、苏格兰、美国等)就会使用不同的方言。
只有在机器学习(ML)和人工智能(AI)功能的双重驱动下,自动语音识别(ASR)才能做到将同种语言中不同方言的口语单词转换为文本。此外,它还能够识别来自一种语言的更多方言和口音。换句话说,有一天,全世界使用的每一种语音技术都将使用一个逼真的人工智能语音生成器。
关于音频技术中机器学习的一些真实示例包括:
(2)数据就是推动力
计算机的声波部分处理是语音识别的初始步骤,即声音将会转换成数据。因此,要使语音识别社会工程获得成功,这一过程应包括以下内容:
最后,深度学习适用于语音识别技术,并且在任何环境中的日常使用中都保持精确,因此,语音识别系统可在给定的环境中平稳运行。
现实中,想要创建语音识别系统的开发人员需要有大量的训练数据。如果从经济角度上来说,这可能需要花费数百万美元来收集正确的转录数据。只有这样,才能对转录数据正确地训练语音识别系统。
(3)人工智能和机器学习中的数字信号处理
尽管在音频处理中应用人工智能和机器学习还处于早期阶段,但深度学习方法使人们能够从不同的角度解决信号处理问题,而这一问题目前正被广大音频行业用户忽视。一般来说,理解声音和信号处理是复杂的,很难用语言来描述。
例如,听到两个或更多人说话,这两个人互相交谈的参数会如何描述呢?这当中要考虑的因素很多,其中一些问题包括:
正如人们所见,对配音的测量可以源自许多参数,并且需要对它们给予重视。在这种情况下,人工智能可以为人们提供一种实用的方法,为学习创造所需条件。
深度神经网络音频处理正日益发展,但仍有许多问题需要人们解决,包括:
(4)配音艺术家
使用深度学习(机器学习)创建自然声音的关键步骤是在这个过程中拥有原始音频。相对而言,世界各地的许多企业都在与配音艺术家合作创作配音产品。大多数配音师在每次使用他们的人工智能语音时可以获得版税,从而获得丰厚的报酬。
但是,配音师也会碰到被骗的问题。他们虽然录制了配音,但没有进一步了解使用者是谁。例如,Siri的原声配音人员苏珊·本尼特(SusanBennett)与ScanSoft公司签订了合同,但她从不知道自己的录音实际上是为苹果公司录制的。她只获得了录制配音的一次性报酬,并没有获得持续收入。
此外,配音师遇到的其他一些问题是,在现有技术背景下,业内的合同和费用尚未得到很大提升。此外,还有人认为配音可能被负面使用,甚至可能会毁掉配音师的声誉。例如,它可被用于不想与之合作的公司以及用于粗俗的语言。
(5)用例的兴起
由于人工智能和机器学习能让人们以最自然的方式增加定制体验、找到解决方案、访问服务、进行产品退货,语音技术在各个行业中不断发展。以下是机器学习和人工智能如何改变自然语言处理案例的几个例子:
(6)语音识别技术是未来吗?
语音识别技术必定在未来大放异彩。随着人工智能和机器学习技术不断改进,人们将看到它们的使用场景不断增加。此外,配音师也将获得一席之地。由于可以通过他们协助语音识别技术改进,之后语音技术可能会发展到与人们交谈时带有各种情绪的程度。
2.结语
以上就是机器学习和人工智能在过去几年为语音技术带来的提升,以及这种提升不断发展的原因。有朝一日,语音技术或将发展至人们与语音助手交谈就像与人交谈一样的程度。
企业则需要考虑如何将语音技术纳入其业务战略。毕竟,世界正在朝着新的起点和技术路径转变,如果他们把语音识别技术融入业务,将有助于他们脱颖而出。