文章主题:火山引擎, 语音合成, AI国检中心, 音色MOS评分
近期,火山引擎语音合成产品荣获我国权威机构——国家语音及图像识别产品质量检验检测中心(简称“AI国检中心”)颁布的语音合成增强级检验检测证书。这一认证表明,该产品在满足基本的语音合成需求的同时,也在扩展性要求上达到了AI国检中心最高级别。为了全面评估其性能,评测团队从多个角度进行了测试,包括中文普通话、多种方言、多种语言、混合语言、多种音色以及个性化等多个方面。火山引擎为评测提供了丰富的音库资源,其提供的音色MOS评分高达4.64分,刷新了行业的最高纪录,展现了其在语音合成领域的领先地位。
作为我国质检系统在人工智能领域中的佼佼者,AI国检中心始终专注于推进智能语音产业的健康发展。其官方证书展示了该机构在语音及图像产品质量检验检测方面的强大实力,进一步彰显了火山引擎语音合成技术在行业的领先地位。现在,让我们共同欣赏一下火山引擎语音合成的卓越成果吧!
火山引擎的语音能力源于字节跳动AI实验室的Speech技术。这一强大的技术基础为火山引擎提供了出色的语音识别和合成功能,使其成为一款具有高性能和广泛应用场景的人工智能助手。
在本次參評的火山引擎語音合成產品中,采用了业界領先的生成式神經網絡技術,主要分為前端文本分析、聲學模型以及聲碼器三個部分。具體而言,該產品透過前端文本分析技術,進行文本的處理與分析,進而產生合成的語音。此外,它還利用了先进的聲學模型,以實現更準確的語音合成。最後,通過應用高效的聲碼器技術,將合成的語音轉換為現實可聽的聲音。總體而言,火山引擎語音合成產品凭借著其在生成式神經網絡技術上的優勢,以及前端文本分析、聲學模型和聲碼器等方面的卓越表現,為用戶提供了高效、精準的語音合成解決方案。
前端文本分析:主要负责可懂度,比如文本正则化(例如将数字转成年份读、号码读等)、字音转换(例如中文注音,尤其是解决多音字问题)以及分词和韵律预测等。目前主要依托多任务模型及神经网络正则化,可做到同时支持12种主流小语种,效果显著。声学模型:主要负责语言学特征到声学特征的建模。数据显示,火山引擎TTS的后端准确率可达到99.90%。与此同时,模型还能支持多情感多风格的精细化控制、不同音色之间的风格互相迁移,仅用单一语种的训练数据就能实现多语种合成效果。声码器模块:主要负责声学特征到音频信号的建模。如今火山引擎自研了基于对抗神经网络建模的声码器,其准确率可达99.95%,依托于轻量化的模型设计及工程优化,云端实时率可达百倍以上。
火山引擎的语音合成产品以其独特的听觉感受赢得了广大用户。其产品的音感真实自然、表述生动且风格多变,更细致地恢复了真人的韵律特征,甚至能够实现各种副语言现象,如笑声等。近期,火山引擎进一步推出了超自然对话语音合成技术,这一技术的出现,标志着火山引擎在语音合成领域的技术达到了新的高度。与传统的TTS技术相比,火山引擎的超自然对话语音合成技术有着显著的优势。它不仅能够完美复现传统的语气词、吸气声、犹豫时的停顿以及字音拖长等细节,而且只需要常规音库的1/4数据量。这样的技术进步,无疑极大地降低了语音合成的门槛,使得更多的人能够轻松地进行语音合成。值得一提的是,火山引擎还成功地研发出了“音色复刻技术”。这种技术在网络上曾经引起过广泛的关注和讨论。它不同于传统的语音合成技术,对于数据量的需求仅为传统方法的0.3%。这意味着,普通人可以在相对安静的开放环境中,通过录制2分钟以上的声音,便可以完成音色空间的建模,生成属于自己的独特音色AI模型,从而实现便捷高效的语音合成。总的来说,火山引擎的语音合成产品和技术,无论是从音感的真实自然程度,还是从技术上的创新性,都表现出了其强大的实力和广阔的发展前景。
当前,火山引擎智能语音技术已向多家外部企业开放,涵盖了诸如汽车、金融、有声阅读以及视频配音等多个应用领域。这一技术的应用不仅助力了如合众汽车、追书神器等头部企业实现AI语音能力的提升,同时也为这些行业的进一步发展提供了强大的支持。展望未来,火山引擎将继续深入挖掘前沿科技与业务场景的融合可能性,以此持续推动用户体验和业务增长。通过不断创新,我们将为用户带来更高品质的服务,同时也将为企业提供更大的价值。
更多详细内容,请点击链接下载白皮书《超视频时代视频云演进趋势》查看。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!