《揭秘语音合成技术：如何模拟真人的细微表达》

火山引擎2yrs ago (2024)update lida

136 0 0

文章主题：数星星, 盼月亮, 周董, 新专辑

数星星盼月亮，万千杰迷苦等6年，不久之前终于等到周董发新专辑啦！

一款能够将人类语言转化为电子声音的技术，近年来在科技领域备受关注。而当这张专辑在一夜之间点燃了全网的热议，许多人陷入了對青春美好回憶的沉思之中時，一位來自 audio 領域的朋友分享了一個令人震驚的消息：那段引人入勝的對話，竟然是透過語音合成技術所創造出來的！這個消息一出，立即在網路上引發了一陣熱潮，讓人们对語音合成的認識有了全新的理解。

导航中种类丰富但语气机械的“前方路口左转”；接电话时，对面笨拙无感情的“您好，这里是xx信用卡中心”；视频网站上，十个解说视频九个声音相同，看到就想赶快划走的“注意看，这个男人叫小帅”……

而如今直接颠覆了许多人的刻板印象，语音合成技术已经能做到像上面那段音频一样完美自然的效果了。

在我们的日常生活中，我们常常会面临一个现实情况：大脑在处理信息时需要花费一定的时间去思考。这种思考过程反映在语言表达上，就表现为犹豫、拖音、倒装等现象，有时甚至会在表达过程中出现一半突然改口、结巴重复的情况。为了强调重点信息，人们往往会刻意加重读音。这些看似微不足道的细节，实际上却包含了大量难以观察和还原的细微表达。在传统的文字-语音（TTS）技术中，这些细微的表达往往难以被捕捉和还原。然而，恰恰是这些被忽略的细微之处，使得声音的真实性和仿真度变得扑朔迷离。它们成为了声音识别技术面临的难题，同时也是音频文件的奥秘所在。因此，要想真正理解和模仿人类在日常交流中的语言表达，我们必须关注这些细微之处，并努力实现它们的完美呈现。

火山引擎语音团队最近推出的超自然对话语音合成技术，相较于传统的TTS技术而言，其表现更为真实自然。该技术的实现，无论是语气词、吸气声、犹豫时的停顿，还是字音拖长等细节，都得到了完美的复现。更令人惊喜的是，该技术只需要常规音库的1/4数据量，就能够完全还原真人说话的细腻韵律特点和发音口癖，从而使得合成效果更为真实可信。根据专业评测的结果，火山引擎的这项新技术与真人录音的差异几乎微乎其微，甚至评测者很难将其与实际录音区分开来。值得一提的是，这项技术已经成功应用于视频配音、电话客服等多个场景，并且近期将正式上线火山引擎语音技术官网，向公众展示其强大的功能。

这么厉害的技术，究竟是怎么办到的？

在实际交流中，人们常常会表现出一些非言语行为，如倒吸气、吞音、思考时声音拉长、低笑等，这些现象被定义为副语言现象（paralanguage）。尽管这些表现是大脑在思考和表达过程中的真实反映，但是传统的语音合成技术却难以对其进行有效的建模，因此在说话时的韵律还原度较低，显得过于“正确”。针对这一问题，我国的火山引擎超自然语音合成技术采用了全新的策略。首先，该技术在文本建模方面进行了创新，通过深度学习算法，可以更准确地理解和模仿人类的文本表达方式，从而提高语音合成的自然度和流畅度。其次，在语音建模方面，火山引擎技术也进行了重要改进，通过对人类语音的深入研究，构建了更为精细的语音模型，使得合成的语音能够更接近真实的发音，进一步提升语音合成效果。总的来说，火山引擎超自然语音合成技术的出现，无疑为我国的人工智能领域增添了新的活力。它不仅能够有效地解决传统语音合成技术中的问题，而且还能进一步推动人工智能技术在实际应用中的落地和发展。

在文本层面，火山引擎采用了生成式的风格迁移模型，模仿真人说话的方式对文本进行可控的口语化转写，让文本更好地拥抱口语化，避免最终效果太过书面。在语音层面，团队则是通过文本分析模型的突破，在TTS的输入侧额外增加了副语言预测，模仿真人的发音特点来实现自然自发的语音效果。

在这里值得一提的是，我们的团队通过采用无监督特征的TTS建模方法，成功地提升了模型的稳定性和表现力。只需利用常规音库的1/4数据规模，就能够生成极为自然且多变的教学语音效果。这种成果无疑是令人赞叹的。

火山引擎无监督特征的TTS建模方案

致力文本口语化让“拟真人表达”跃然纸上

在语音合成技术中，输入文本的风格是否接近真人的表达方式，被视为影响合成效果的关键因素。然而，由于长期以来的书写语言习惯的影响，许多合成前的文本缺乏自然感，需要投入大量的时间和精力进行调整。为了克服这个问题，火山引擎语音团队的同事们提出了一种两阶段的解决方案，并且已经取得了显著的效果。

阶段一：采用自监督方法，使用伪数据对口语化模型进行预训练，降低了数据量的需求；同时在模型中引入了指针网络结构，增强了文本可控性。阶段二：利用少量优质的人工标注数据，对预训练好的口语化模型进行微调，最终实现可控的、自然的口语化文本效果。原始文本自动化预测后的文本南方菜系偏爱蘸料，例如我第一次去上海才知道烧烤里的蔬菜也需要配蘸料嗯，南方菜系的话，超级偏爱用蘸料啊什么的，就比如说我第一次呃，第一次去上海的时候，才知道这个烧烤里的蔬菜也得配着蘸料像我们上街去买白菜，南方人说我要半颗白菜，北方人说我来半车白菜嗯这跟我们上街买白菜差不多吧，南方人说我要半棵白菜，然后那个北方人说我来半车其实南方菜系更偏重吃调料的味道，即厨师用调料去发挥他的功力对，其实南方菜系更偏重的是吃它这个调料的味道，也就是说，厨师这个，用调料去发挥他的功力

副语言建模+韵律多样性可圈可点语音真实感全面升级

为了更精确地复刻真人的语言特征，火山引擎在副语言建模和韵律多样性上进行了深度探索。在副语言建模领域，该团队研发的合成技术成功地构建了声学模型，对自然表达中诸如吸气、笑声、犹豫、修正等副语言现象进行了精准建模，同时利用文本的语义信息自动嵌入这些副语言现象。在整个插入过程里，团队兼顾了合理性与随机性的平衡，使得最终呈现出来的语言更为自然真实。

在探索韵律的丰富多样性过程中，我们运用了无监督表征学习技术，成功研发出具备高表现力的声学模型框架。该框架通过拆解发音、韵律、音色三个维度，不仅大幅度减少了数据需求，还针对那些出现频率极低的发音现象实现了高效的建模。此外，结合无监督表征特性以及音素级别的基频和能量信息，我们进一步实现了韵律的自然多变，从而推动了对高质量对话语音生成的追求。火山引擎语音团队的这一成果，无疑为语音处理领域带来了全新的突破。

高表现力的声学模型框架

关于火山引擎语音团队

火山引擎语音能力源自字节跳动 AI Lab Speech & Audio 智能语音与音频团队。团队将长期服务字节跳动各业务线的前沿语音技术通过火山引擎开放，提供行业领先的全站语音产品解决方案，帮助企业高效解决语音通信、人机语音交互、音视频内容理解与创作等领域诸多问题，不断探索AI与业务场景的高效结合，以实现更大的用户价值。

点击语音技术-火山引擎，了解更多商用语音技术。

数星星, 盼月亮, 周董, 新专辑

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！