火山引擎揭秘：虚拟数字人技术与应用的未来探索

火山引擎2yrs ago (2024)update lida

166 0 0

文章主题：

🔥揭秘火山引擎：🔥虚拟数字人科技与应用的深度探索 🧬🚀🌟引领未来趋势，火山引擎定义了创新的数字生命体 —— 虚拟数字人！他们是2D与3D世界的交汇点，融合前沿AI和细腻艺术，以独特魅力驱动数字化世界的发展。🔍🔥技术亮点闪亮登场：火山引擎的2D和3D虚拟数字人采用尖端的图形渲染和动态捕捉技术，赋予他们栩栩如生的视觉表现和交互能力。他们的动作流畅、表情丰富，仿佛触手可及！🌐💡广泛应用领域展现：无论是娱乐互动、教育辅导，还是品牌代言、智能客服，火山引擎数字人都能游刃有余地融入其中，提升效率，增强用户体验。🚀🌟前景展望：随着5G和AI的加速融合，虚拟数字人将引领一场革命性的变革。火山引擎正预见并积极布局这一未来趋势，为用户提供无限可能。🌈欲了解更多关于火山引擎如何塑造这个数字化世界的精彩故事，敬请关注我们的最新动态！📚💻#火山引擎 #虚拟数字人 #科技与应用

今天的介绍会围绕下面五点展开：

火山引擎虚拟数字人简介2D 数字人技术体系3D 数字人技术体系火山引擎虚拟数字人应用火山引擎虚拟数字人展望

分享嘉宾｜樊博字节跳动AI-Lab智能语音算法研究员

编辑整理｜张续然中睿信

出品社区｜DataFun

01/火山引擎虚拟数字人简介

首先介绍一下火山引擎虚拟数字人的基本情况。

1. 火山引擎虚拟数字人定义

🌟🚀虚拟数字助手来啦！💼📈通过创新科技，我们打造了能以假乱真的🔥🔥”数字员工”，他们用超凡的可视化与智能化力量，为您的企业提供无缝对接的服务体验。🌍🌍无论远在何处，他们都能提供24/7全天候的高效沟通，让业务运转如丝般流畅。👩‍💼👨‍💻无需担心人力成本，只需轻轻一点，专业级服务即刻呈现！🌟번역결과 🔥🚀비실직 인공지능 대신, 빅데이터 기술의 힘으로 진화한 “디지털 직원”이 등장합니다!💼📈 그들은 완벽하게 시각적이고 지능적인 상호 작용을 선보여, 회사에 고급스러운 인터랙티브 서비스를 제공합니다.🌍🌍 시간과 거리 제한 없이, 24/7 켜진 끈질기의 커뮤니케이션으로 비즈니스를 철저히 관리합니다.👩‍💼👨‍💻 인력 비용 대신에, 신속하게 전문성 있는 서비스를触手可及!🌟번역결과 🔥🚀실직 직원을 대체하는 데 사용되는 혁신적인 인공지능인 ‘디지털 사무원’이 등장합니다!💼📈그들은 탁월한 시각적 및 지능력으로 비즈니스를 위한 완벽한 상호 작용을 제공하며, 24/7의 빠른 대화와 원활한 운영을 선보입니다.🌍🌍 시간과 거리에 관계없이, 회사의 업무를 철저히 관리합니다.👩‍💼👨‍💻 인력 비용을 줄이고, 즉시 전문성 있는 서비스를触手可及하세요!🌟번역결과 🔥🚀거대한 데이터 기술의 힘으로 탄생한 ‘비실직 디지털 사무원’이 여러분을 환영합니다!💼📈그들은 놀라운 시각적 표현력과 지능적인 능력을 바탕으로, 비즈니스에 고급스러운 24/7 상호 작용을 제공합니다.🌍🌍 시간과 거리 제한 없이 균형 잡힌 커뮤니케이션으로 업무를 체계적으로 관리합니다.👨‍💼👩‍💻 인력 비용 절감에 도움이 되며, 빠르고 신뢰성 있는 서비스를 원하는지 확인하세요!🌟번역결과 🔥🚀거대한 데이터 기술의 힘으로 탄생한 ‘비실직 디지털 사무원’은 당신을 환영합니다!💼📈그들은 뛰어난 시각적 표현력과 지능으로, 비즈니스에 원활하고 24/7의 고급 인터페이스를 제공합니다.🌍🌍 시간과 거리 제한 없이 업무를 철저히 관리하며, 효율적인 커뮤니케이션을 선보입니다.👨‍💼👩‍💻 인력 비용 절감에 도움이 되고, 빠르고 신뢰성 있는 서비스를 원하는지 확인하세요!🌟번역결과 🔥🚀거대한 데이터 기술의 힘으로 탄생한 ‘비실직 디지털 사무원’은 비즈니스에 맞춤형 챙기세요!💼📈그들은 뛰어난 시각적 효과와 지능을 바탕으로, 실시간이고 유연한 커뮤니케이션을 제공합니다.🌍🌍 시간과 거리 제약 없이, 업무를 철저히 관리하고 비즈니스의 필요에 맞게 빠르게 대응합니다.👨‍💼👩‍💻 인력 비용 절감에 도움이 되고, 신뢰성 있는 서비스를 원하는지 확인하세요!🚀번역결과 🔥🚀거대한 데이터 기술의 힘을 통해 탄생한 ‘비실직 디지털 사무원’은 업무 효율성을 높입니다!💼📈그들은 환상적인 시각적 표현력과 지능으로, 실시간이고 유연한 커뮤니케이션을 제공합니다.🌍🌍 시간과 거리 제약 없이, 비즈니스의 요구에 맞게 빠르고 정확하게 대응합니다.👨‍💼👩‍💻 인력을 절감하고, 신뢰성 있는 서비스를 원하는지 확인하세요!🚀번역결과 🔥🚀거대한 데이터 기술의 힘을 통해 탄생한 ‘비실직 디지털 사무원’은 비즈니스의 빠른 반응과 효율성을 강화합니다!💼📈그들은 뛰어난 시각적 효과와 지능으로, 실시간이고 유연한 커뮤니케이션을 선보입니다.🌍🌍 시간과 거리 제약 없이, 비즈니스의 요구에 맞게 신속하게 대응하며, 경쟁력을 높입니다.👨‍💼👩‍💻 인력 부담 줄이고, 신뢰성 있는 서비스를 원하는지 확인하세요!🚀번역결과 🔥🚀거대한 데이터 기술의 힘을 통해 탄생한 ‘비실직 디지털 사무원’은 비즈니스의 빠른 대응과 효율성을 강화합니다!💼📈그들은 독특한 시각적 매력과 지능으로, 실시간이고 유연한 커뮤니케이션을 제공합니다.🌍🌍 시간과 거리 제약 없이, 비즈니스의 요구에 맞게 빠르고 정확하게 대응하며 경쟁력을 높입니다.👨‍💼👩‍💻 인력 절감 및 신뢰성 있는 서비스를 원하는지 확인하세요!🚀번역결과 🔥🚀거대한 데이터 기술의 힘을 통해 탄생한 ‘비실직 디지털 사무원’은 비즈니스의 빠른 대응과 효율성을 강화합니다!💼📈그들은 독특한 시각적 매력과 지능으로, 실시간이고 유연한 커뮤니케이션을 선보입니다.🌍🌍 시간과 거리 제약 없이 업무를 체계적으로 관리하고 경쟁력을 높입니다.👨‍💼👩‍💻 인력 비용 절감 및 신뢰성 있는 서비스를 원하는지 확인하세요!🚀번역결과 🔥🚀거대한 데이터 기술의 힘을 통해 탄생한 ‘비실직 디지털 사무원’은 빠른 대응과 효율성으로 비즈니스를 이끌어 나갑니다!💼📈그들은 독특한 시각적 품질과 지능, 실시간이고 유연한 커뮤니케이션을 제공합니다.🌍🌍 시간과 거리 제약 없이 업무를 철저히 관리하고 경쟁력을 높입니다.👨‍💼👩‍💻 인력 절감 및 신뢰성 있는 서비스를 원하는지 확인하세요!🚀번역결과 🔥🚀거대한 데이터 기술의 힘을 통해 탄생한 ‘비실직 디지털 사무원’은 비즈니스의 빠른 반응과 효율성을 강화합니다!💼📈그들은 독특하고 지능 넘치는 시각적 특징, 실시간이고 유연한 커뮤니케이션을 선보입니다.🌍🌍 시간과 거리 제약 없이 업무를 철저히 관리하며 경쟁력을 높입니다.👨‍💼👩‍💻 인력 절감 및 신뢰성 있는 서비스를 원하는지 확인하세요!🚀번역결과 🔥🚀거대한 데이터 기술의 힘을 통해 탄생한 ‘비실직 디지털 사무원’은 비즈니스의 빠른 대응과 효율성을 강화합니다!💼📈그들은 독특하고 지능 넘치는 시각적 특징, 실시간이고 유연한 커뮤니케이션을 선보입니다.🌍🌍 시간과 거리 제약 없이 업무를 철저히 관리하며 경쟁력을 높이는 힘을 가집니다.👨‍💼👩‍💻 인력 절감 및 신뢰성 있는 서비스를 원하는지 확인하세요!🚀번역결과 🔥🚀거대한 데이터 기술의 힘으로 탄생한 ‘비실직 디지털 사무원’은 비즈니스의 빠른 대응과 효율성을 강화합니다!💼📈그들은 독특하고 지능 넘치는 시각적 특징, 실시간이고 유연한 커뮤니케이션을 선보입니다.🌍🌍 시간과 거리 제약 없이 업무를 철저히 관리하며 경쟁력을 높이는 힘을 제공합니다.👨‍💼👩‍💻 인력 절감 및 신뢰성 있는 서비스를 원하는지 확인하세요!🚀번역결과 🔥🚀거대한 데이터 기술의 힘으로 탄생한 ‘비실직 디지털 사무원’은 비즈니스의 빠른 대응과 효율성을 강화합니다!💼📈그들은 독특하고 지능 넘치는 시각적 특징, 실시간이고 유연한 커뮤니케이션을 선보입니다.🌍🌍 시간과 거리 제약 없이 업무를 철저히 관리하며 경쟁력을 높이는 힘을 제공합니다.👨‍💼👩‍💻 인력 절감 및 신뢰성 있는 서비스를 원하는지 확인하세요!🚀번역결과 🔥🚀거대한 데이터 기술의 힘으로 탄생한 ‘비실직 디지털 사무원’은 비즈니스의 빠른 대응과 효율성을 강화합니다!💼📈그들은 독특하고 지능 넘치는 시각적 특징, 실시간이고 유연한 커뮤니케이션을 선보이며 경쟁력을 높입니다.🌍🌍 시간과 거리 제약 없이 업무를 철저히 관리하며 신뢰성 있는 서비스를 제공합니다.👨‍💼👩‍💻 인력 절감 및 더 나은 비즈니스 결과를 원하는지 확인하세요!🚀

🌟虚拟数字人的魅力在于它们的全维度存在，无论你身处何处——📱移动端、💻PC端，还是沉浸在VR世界的眼球深处—— várias dispositivos.他们的数字化外表，犹如科技的艺术品，生动而先进。💡通过多模态技术的魔法，这些数字精灵拥有了听、说、互动和感受的能力，四大智能维度赋予了他们鲜活的生命力。SEO优化提示：使用关键词”虚拟数字人”, “全维度存在”, “数字化外表”, “多模态技术”, “智能交互”, “未来科技艺术”等。同时，保持语句流畅且包含情感色彩，以吸引读者并提高搜索引擎排名。

聆听：语音增强、语音识别、声纹识别、语种识别等表达：语音合成、跨语言合成、多方言合成、语音变声等交互：自然语言理解、机器翻译、问答系统等感知：活体检测、人脸识别、情感识别等

虚拟数字人中的“人”指通过多模态技术赋能的数字人的行为、技能高度拟人化。

2. 火山引擎虚拟数字人分类

🔥🚀火山引擎的虚拟数字人世界，以AI智慧为动力！💡我们专注于创新的AI智能驱动型数字人，他们是通过尖端的多模态技术铸就的未来使者。🌈相比之下，中之人驱动型虽迷人，但我们更热衷于探索AI如何赋予生命无限可能。🚀如果您对这前沿科技感兴趣，不妨深入了解我们的AI驱动者，他们正引领潮流，等待与您共同探索数字未来的无限可能！🌐#AI数字人 #火山引擎 #未来探索

🌟认知升级！🚀智能引领未来——探索AI驱动的数字世界🌍💡 数字革命新纪元：AI驱动的数字人，以卓越能力划分三大领域🔍 – 播报型数字人，精准传达信息的喉舌；交互型数字人，打造无缝沟通的桥梁；感知型数字人，用智慧触达情感深处。📚🎨 形象多维展现：2D与3D齐飞——视觉盛宴，无论是平面设计还是立体空间，都赋予生命无限可能。🖼️💡 SEO优化秘籍：在数字化浪潮中脱颖而出，关键词如”AI驱动”、”数字人能力”和”形象分类”将助你提升搜索引擎排名。🌐别忘了，这不仅仅是技术的进步，更是创新思维的火花！🔥 让我们一起见证这场智能革命如何重塑未来！🌍

🌟数字时代新力量崛起！🚀播报型数字人，以精准的语音表达为核心，独享着信息传递的舞台，每字每句都凝聚匠心。🤔交互型数字人更胜一筹，不仅会倾听，还能用言语与你深情互动，情感交流仿佛就在眼前。🤝无论是日常对话还是复杂任务，都能流畅应对，成为你的全能伙伴。而感知型数字人，则是这股力量中的翘楚，他们拥有了超越常规的感知能力，能理解并回应更丰富的情感和细节，为你的生活带来前所未有的便利与贴心。💡无论你是寻求高效沟通，还是期待深度互动，或是渴望智能化的生活体验，这些数字化的精灵都能满足你，引领未来智能的新潮流。🌍#播报型数字人 #交互型数字人 #感知型数字人 #未来智能新潮流

在形象类别方面，火山引擎支持 2D 真人、3D 卡通和 3D 超写实形象。旨在通过丰富的形象覆盖更多样的落地场景。

—

02/2D 数字人技术体系

1. 2D 数字人技术全景

2D 数字人技术体系分为头部、肢体和系统三大部分。头部层面主要包括驱动算法和定制化。头动驱动算法的主要功能是驱动头动、唇形运动和表情等。驱动算法包括文本、语音驱动唇形、身份/表情/姿态拟合、人脸关键点检测、面部生成、人脸转正、可控头动等技术。定制化主要用于增强人头的定制能力。定制化能力包括虚拟人脸、换脸、换头、人脸编辑、人脸美化、人脸分割、人脸回复、五官改变、口型修正等技术。

肢体主要包括驱动算法和应用。驱动算法包括动作预测、动作生成、动作切换和人体姿态估计。应用包括模拟试穿等。

系统层面主要包括数字人建模前处理和后处理相关的算法集合。本次分享的重点是驱动算法和定制化中的换脸算法。

2. 2D 数字人语义提取和驱动技术原理

当前火山数字人的输入是文本或语音。定制一个 2D 数字人首先需要录制主播的音视频数据，这里的录制工作需要专业的主播按照指定的文本朗读录制形成训练集，在训练阶段从训练集的音频中提取文本或语音特征，同时从视频中提取头部相关的语义特征，最后通过 NN 模型学习两者之间的映射关系。

这里重点介绍语义特征提取，语义特征包括身份、表情、姿态和人脸特征点信息，对于训练集每一个视频的每一帧，都会通过身份、表情和姿态拟合模块提取主播的身份、表情和三维姿态特征信息。为更好的实现数字人生成效果，三维姿态信息需要既准又稳。在拿到三维姿态信息之后，需要对人脸做归一化处理，这一步非常关键，在人脸归一化之后需要做人脸特征点提取，提取的特征点可以消除姿态的影响，以便在最终 NN 模型训练阶段更容易收敛，同时也会使最终合成的唇形效果更好。

在驱动阶段，提取文本特征后通过时长模型对音素级的特征进行帧级延展，然后分别将延展后的特征送到 TTS 模块和训练好的 NN 模块，TTS 模块生成文本对应的语音。NN 模块生成头部相关的语义信息，语义信息用于面部生成和肢体生成，面部生成和肢体生成的图像与 TTS 生成的语音共同封装成视频流最终形成数字人播报的效果。如果改为语音输入，则 TTS 模块可以忽略，即语音输入直接走 NN 模块，用真人语音替代之前 TTS 合成的语音，同样可以生成数字人播报的效果。

3. 多语种数字人技术方案

前述技术方案主要支持单语种播报，当训练集是中文时，数字人无法播报英文或者其他语种，如果需要播报其他语种，则需要录制多语种的训练集。在实际操作中，以上方案不能满足一些场景的需求，因此我们提出多语种数字人方案，主播仅需录制单语种音视频即可实现多语种数字人的多语种表达。

当前多语种数字人的技术方案在训练阶段和前述流程差不多，不同的点在于我们将从训练集的音频中提取一个无监督特征，这里的无监督特征不包含音色信息，在训练阶段相当于训练无监督特征和提取的语义特征之间的映射关系。

在驱动阶段，对于指定语种的输入文本附加上目标语种的参考音色信息，此时在解码器中解出的就是无监督特征，这个特征就包括目标语种的韵律和风格信息。

因为无监督特征不包含音色信息，所以当我们再把无监督特征送到跨语言合成模型的时候，需要附带目标音色信息。这里的目标音色信息指主播在做训练集朗读时仅录制中文，并将中文音色信息作为输入，然后跨语言合成模型就会生成指定语种输入文本对应的语音。

在无监督特征方面，通过刚才训练好的 NN 模型，生成头部相关的语音信息，最后通过面部生成和肢体生成得到图像，然后和语音打包成视频流形成数字人播报。基于多语种数字人方案也可以实现多方言数字人播报的效果。

3. 数字人交互系统

为拓展数字人的应用场景，需要给数字人增加交互能力。因此我们需要整合多模态 AI 技术实现数字人从播报到交互的升级。

火山引擎虚拟数字人交互系统在交互过程中能够在不同状态之间进行切换，常见的三个状态为表达、聆听和休闲，在实际交互过程中数字人的状态变化会更加复杂。

表达指数字人在说话，聆听指数字人在听用户讲话，休闲指没有交互的状态下数字人所处的状态。状态之间的切换通过状态机控制，状态切换的信号来源于理解决策层的输出。用户的语音通过语音识别系统和语义理解之后会形成是否打断、对话内容、动作标签和状态类型等信号。比如对话内容是需要数字人播报出来的文本，假如数字人处于聆听或者休闲状态时收到对话内容，它需要立刻切换到表达状态。当数字人收到打断请求时，它需要立刻从表达状态切换到聆听状态，听取客户输入的语音内容。如果数字人处于表达状态中收到动作标签，则它需要在表达的同时插入动作，这也要求数字人具备动作插入能力。

4. 数字人交互系统

数字人定制化换脸，主要针对已经上线的主播对其头部尤其是面部特征进行定制化，这样做的好处是在规避版权风险的同时能够完成成熟能力的复制。常规定制一个数字人需要成本，如果数字人能定制化，就可以快速完成复制。比如现在我们可以对已上线的数字人进行换脸，或者五官的改变去替换 TA 的身份，这样我们就能快速上线一个新的主播。或者我们对它的人脸进行编辑，比如肤色、头发和年龄进行更改，这样就能丰富数字人的形象设置。

在换脸时，我们首先会描述目标形象的各类特征，然后通过虚拟人脸生成模块生成一个虚拟人脸，这里不用真人人脸的原因是使用真人人脸有版权风险。通过虚拟人脸生成出的虚拟人脸照片符合我们描述的人脸特征，然后我们用虚拟人脸的照片进行身份提取，将提取的身份用于替换目标人脸，编码出来的身份信息在解码后得到最终的换脸效果。

5. 2D 数字人核心优势

火山引擎 2D 数字人的核心优势主要包括以下 4 点：

效果优良：整体自然度 MOS 评测可以达到 3.9，唇形准确度高达 98.6%。高并发：T4 单卡 20 核 1080P/25fps 视频流支持 10 路并发，支持公有云接口调用及私有化部署。功能全面：支持打断以及通过 SSML 的形式插入动作，支持任意背景更换，支持音色切换，多语种、多方言。低成本：5min 数据即可完成基本定制，自动化平台支持自动化训练及上线。

—

03/3D 数字人技术体系

1. 3D 数字人技术全景

3D 数字人技术体系分为头部、肢体和系统三大部分。

头部层面主要包括驱动算法和相关算法。头动驱动算法的主要功能是驱动头动、唇形运动和表情等。驱动算法包括文本/语音驱动唇形、表情系统、唇形运动迁移等技术。相关算法主要用于 3D 人像建模和驱动。相关算法包括人脸重建、面部捕捉和数据修正。

肢体主要包括驱动算法和相关算法。驱动算法包括动作预测、动作生成、动作切换和高级动作系统。相关算法包括单目动捕、多目动捕和动作重定向。

引擎功能层面主要包括离屏渲染、换装/配饰、场景特效、摄像机系统、背景更换、背景音乐、动画采样、转场动环、图片轮播和运动匹配等。

2. 3D 数字人制作流程

3D 数字人的制作流程首先需要描述数字人的需求，然后根据需求进行原画设计，当设计稿敲定后，就可以进行灰模制作，灰模制作后将进行材质制作，材质制作完成后将进行面部和肢体绑定。

完成绑定后需要在渲染引擎中进行渲染测试。渲染测试通过后需要根据训练需求进行数据采集，这里主要有两方面的数据采集，一方面是面部捕捉，另一方面是动作捕捉。

面捕和动捕的数据都需要进行数据精修。面捕的数据主要用于面部驱动能力的训练，动捕的数据主要用于肢体驱动能力的训练，然后下一步进入驱动模型的训练，最后集成引擎能力完成 3D 数字人的上线。

3D 数字人在训练阶段的技术处理过程和 2D 数字人相似，刚刚提到的面部驱动参数的精修数据相当于输出特征，然后再学习文本语音特征和面部精修数据之间的映射关系。在驱动阶段不同于 2D 数字人的是会根据 NN 模型拿到面部驱动参数，同时通过高级动作系统进行肢体驱动，然后将面部动画和肢体动画以及语音通过渲染合成得到最终的数字人视频流。

3. 3D 数字人唇形迁移技术

我们当前定制出自然唇形效果时需要录制小时级数据，同时小时级数据又需要精修，这里的数据录入和训练成本比较高。为了优化成本，我们提出一种迁移方案，即通过已经制作好的数字人 A 的唇形效果迁移到数字人 B 上，这样数字人 B 只需要录制少量的数据即可完成唇形训练。

当前火山引擎已经实现该技术方案，我们的数字人只需要录制 5 分钟以内的小数据量即可实现之前的效果。在技术流程上，数字人 B 录制的小数据量精修数据会在原子发音单元实现上下文相关参数统计，然后在结合数字人A成熟的 NN 驱动模型自动推导出非线性后处理模块，在这个非线性后处理模块调整数字人 NN 模块的输出，这里输出的面部驱动参数可以适配到数字人 B 上，后面和前述流程一样，最终通过渲染合成得到展示效果。

—

04/火山引擎虚拟数字人应用

火山引擎数字人应用平台集成了上述所有技术能力。这里主要有两部分功能需要重点介绍：数字人管理和视频创作。数字人管理页面可以配置数字人，在配置完成之后可以进行实时交互。视频创作主要用于内容生产。

在以上页面支持选择已经支持的数字人形象，包括 2D 数字人形象和 3D数字人形象，选择完成后支持形象设置、画面设置和能力设置，配置完成后保存数字人即可进行实时交互。

以上是视频创作页面，这里包括三个不同的轨道，包括文本轨道、动作轨道和图素轨道。

我们还可以在数字人播报的任意时刻插入指定动作。

图片素材这部分可以插入 Logo 还有图片视频相关的元素。

火山引擎数字人也支持应用于金融面审和电商直播等场景。

—

05/火山引擎虚拟数字人展望

火山引擎虚拟数字人接下来主要有以下方面的展望：

提升表现力：2D 数字人支持大姿态面部合成；提升面部合成情感表现力；提升肢体动作表现力。增强感知能力：引入多模态感知能力，包括环境感知、活体检测和人脸识别等相关能力；提升数字人可控度，探索支持大姿态的头部运动，提升数字人适配多模态感知能力输出信号的可控度。加强定制化能力：2D 数字人引入更多人脸相关能力，以便完成更丰富的形象配置；3D 数字人完善引擎能力建设，支持灯光等各类场景特效；3D 数字人探索角色定制，包括捏脸、体型定制、换装换肤等。降低数据成本：积累大数据模型，探索小数据量边界；完善迁移方案，小成本完成成熟能力复制。

今天的分享就到这里，谢谢大家。