作者:Sergio Bruccoleri

Sergio
是文思海辉全球化解决方案团队的解决方案开发负责人,同时也是 OneForma 和文思海辉 AI 赋能计划的深度参与者。 

全球语音合成 (TTS) 技术市场规模虽然不大,但是正以每年 15% 的复合增长率增长。因此,对此类服务的需求激增,力求通过将文字转换为以合适的声音和语调传达的语音来演绎品牌个性。让我们进一步了解一下 TTS 的发展历程。

定义 TTS

TTS 是一种能够将数字文本转换为语音的技术。顾名思义,TTS 按字面意思处理一段文字并将其转换为音频,因此,有时 TTS 也被称为朗读技术。TTS 最常见的使用场景包括用于智能扬声器、服务亭、聊天机器人和无障碍服务的语音。 

TTS 演变

直到最近,企业还对 TTS 应用感到满意,而其中的 vossmlice 听起来非常呆板机械。只要 TTS 应用能实现其预期功能,像音调等细微差别并无大碍,也不需要通过标准化标记语言如 SSML 进行大量编辑工作来改善结果。但是由于人工智能的发展,现在我们可以将语调的细微差别与真人交谈方式相联系,使语音听起来更加接近真人。TTS 的这一分支称作神经语音合成。于是,企业开始将 TTS 应用于一些以往使用真人声音的场景,如在教程和广告中。 

肯德基国际炸鸡日

例如,最近肯德基在庆祝国际炸鸡日时,模仿了肯德基的国际形象桑德斯上校,重塑了汽车穿梭售卖服务体验。活动中,肯德基推出了基于语音的仿真桑德斯上校头像,为使用汽车穿梭服务的顾客打造出一种向桑德斯上校本人点餐的有趣体验。这次体验通过语音识别、AI TTS 技术,使肯德基汽车穿梭餐厅服务员的声音听起来就像桑德斯上校以一种南方拖腔在说话,唤起了人们对肯德基的创始地肯塔基州的回忆。在本例中,TTS 通过实现一种有趣的体验,帮助这个全球化品牌注入了个性和幽默。 

Vyond

动画广告的最大创作平台之一 Vyond,在其作品中运用了 TTS 来结合丰富的动画和声音。Vyond 依赖于 Amazon Polly 语音合成技术,通过一个能够合成人们正常的语调、语音和语言的机器,发出语音。例如,Kapitec Software 使用 Vyond 为其在线学习软件制作了白板视频。在 Vyond 网站上,Kapitec Software 首席执行官 Sandrine BoarqueiroVerdu 表达了对 TTS 的赞许。BoarqueiroVerdu 表示“语音合成技术提供的声音听起来非常自然。尽管我们主要使用法语语音,但是拥有多种语言选择使我们能够针对不同地区将我们的内容本地化。我们的视频广受客户好评,比其他内容的浏览量更高。”

TTS 为何越来越受欢迎

企业使用 TTS 来模仿真实人声的一个主要原因是神经 TTS 的效果正在不断改进。神经网络的融入,使得 TTS 能够根据字符串的公认意图(何时表达悲伤或惊喜),感知声音的情绪变化和韵律。情绪感知能力一直是 TTS 的一大弊端,但是这个问题正在逐渐被克服。因此,企业便可在企业介绍视频、广告、游戏和其他应用场景中使用 TTS 替代配音演员。 

嵌入 AI TTS 技术的不断发展为企业带来了诸多益处。例如,企业可以实现更快的周转期和更经济高效的生产。这是由于通过正确的参数,机器便能够完美地将文本转换为语音,可以有效避免使用配音演员时不可避免的返工情况。 

同时,使用“人机回圈”类型的工作流程,该项技术使语言专家能够(对韵律、音高、语速和发音)进行更改,借助于后期编辑和语音合成编辑标准(如 SSML),确保更好的结果。

TTS 的发展趋势

TTS 正在多方面发展。例如,语音克隆技术可以捕捉您品牌的精髓,并通过机器表达出来。通过声音克隆,您可以使用 TTS 与录音数据集来合成如高管和明星等名人的声音,这对娱乐行业等领域的企业将非常有用。

猎豹移动公司就是一个正在转向语音合成的另一分支,语音到语音(就是将源语言的语音翻译成目标语言的语音)的例子。该公司最近大范围推出了一款 CM 翻译机,一种手持式翻译设备。正如猎豹移动在一次发布会上表示,该工具可以帮助美国旅行者在出国旅行过程中遇到问路等情况时有效地进行交流,也可以为新到美国的移居者提供帮助。 

如何考虑 TTS

我们相信对于企业来说,明智地考虑 TTS 非常重要。如果您正在考虑使用 TTS,需要注意以下事项:

  • TTS 对于需要与屏幕中的人物口型相对应的视频不适用。当机器语音语速过快时,其质量将下降。因此您将损失周转期和成本优势。
  • 并非所有文本都适合转换为语音。人们通过耳朵和眼睛理解信息的方式不同。我们的大脑通过耳朵处理更为简单、易于理解的内容,这也是为什么口语表达在分解为更简短的信息时更加有效的原因。 
  • TTS 不能代替人。相对于机器,人类仍然能够更好地理解给定的刺激,并更好地对其作出反应。例如,与机器相比,人类更能读懂情绪,并以相应的语调变化做出反应,理解语境的能力也更强。此外,真人声音更适合于实景视频。机器无法根据节奏变化快速做出调整(如在实时转播体育赛事时)。   

文思海辉可以利用我们的 AITTSSSML 和语言翻译专长帮助各公司采用 TTS联系我们以进一步了解我们的服务。