文章主题:2022内容科技成果发布会, 数字人系统, 火山引擎虚拟数字人平台, AI虚拟员工解决方案
在6月21日,由我国的内容科技产业推进方阵、中国信息通信研究院云计算与大数据研究所以及中国通信标准化协会TC602联手举办的“2022内容科技成果发布会”成功在网上举行。在此次发布会上,首次公开了数字人系统基础能力评测的结果。其中,火山引擎虚拟数字人平台表现出色,成功通过了在技术、工程化以及安全保障等各个方面的评测要求。
为了促进我国产业界对数字人概念的广泛认可并提高其实际应用能力,中国信息通信研究院(简称:中国信通院)首次推出了数字人评测项目。该项目共包括48个测试项目,采用了多种评价方式,如人员访谈、系统操作演示和材料审查,从而确保了全面评估參評數字人系統的基礎技術能力、工程化應用能力以及安全保障能力。此外,评测內容涵蓋了语音技術能力、交互技術能力、易用可靠性和形象版权保障、內容風險控制等多個方面,以期對參評數字人系統進行全面的評估和檢測。
火山引擎虚拟数字人平台是火山语音“AI虚拟员工解决方案”的核心部分,它以人机交互为基础,整合了语音识别、语义解析、对话交流、语音合成以及双工控制等前沿核心技术。这一创新性方案致力于塑造具有真实感知的数字员工形象,使其在形象、感知、理解和表达能力方面尽可能接近真实人类。此外,该平台成功通过了信通院的评测认证,这无疑证明了火山语音支持的数字人技术及其产品成熟度已得到了业界的广泛认可。
要全面了解火山引擎数字人的特性,我们需要深入研究其形象类型的分类。这些类型主要包括2D、3D卡通和3D超写实。2D数字人是通过在专业录影棚录制的大量视频中进行训练而得到的,其AI驱动的效果与真实人物极为接近,非常适合在严谨的商务场合使用。3D卡通数字人则以其生动的卡通形象,能够更好地展现出数字人的独特个性,通常被用于娱乐场合。而3D超写实数字人则在保持3D空间感和信息载体优势的同时,还能借助3D建模技术的突破,实现对真人发肤的高度还原,因此适合在需要较高形象空间感、3D特效或XR等信息载体的创新场景中使用。
火山引擎数字人形象矩阵
除了其形象特征的多样性,2D数字人和3D数字人在技术实现路径上也有显著差异。2D数字人采用业界先进的非自回归模型来生成唇形,这种方法能够合成为输入文本或语音完美匹配的唇形,从而有效减少误差积累,提高准确率至98.55%。此外,它还能通过解耦头部姿态和唇形,实现头部姿态的灵活控制,并通过光流插帧技术,实现与语义相关的肢体动作的自然过渡。这使得火山引擎数字人具备了业界的领先自然表现力,其整体自然度MOS可以达到3.8以上。火山语音团队的总结是:“火山除了形象特征的千差万别,我们在2D数字人和3D数字人的技术实现路径上也大不相同。”
原内容主要介绍了两种不同类型的动画角色制作方式:3D数字人和传统的手绘角色。3D数字人的制作过程包括原画创作、建模、绑定、AI训练和渲染等多个步骤,其研发的基于IPA的细粒度唇形驱动方案可以实现高精度的唇形和表情驱动,目前的唇形自然度已经达到了4.0。此外,通过不断优化和改进的Pose Matching算法,3D数字人能够实现同级动作的自然打断和切换,并且还采用了灵活的图层控制策略,可以支持3D渲染结果的后期处理,使得整体的自然度可以达到3.8以上。改写后的文章:在动画领域中,角色的制作技术一直在不断发展,其中两种不同的制作方式值得关注,分别是3D数字人和传统手绘角色。3D数字人的制作过程涵盖了原画创作、建模、绑定、AI训练和渲染等步骤,并利用自研的基于IPA的细粒度唇形驱动方案实现了高精度的唇形和表情驱动,目前其唇形自然度已经达到了4.0。与此同时,通过不断改进的Pose Matching算法,3D数字人能够实现同级动作的自然打断和切换,同时采用灵活的图层控制策略,可支持3D渲染结果的后期处理,从而确保整体自然度可以达到3.8以上。
当前,火山引擎数字人的应用场景已经十分广泛,主要包括“播报型数字人”以及“交互型数字人”两大类别。其中,“播报型数字人”是一种基于文本或语音输入的技术,能够轻松地生成自然且生动形象的数字人播报视频。而“交互型数字人”则是播报型数字人的进阶版,它依托于火山语音长期积累的成熟语音交互技术,使得数字人具备了“善听”、“会说”和“能想”的能力,从而能够实现与用户的面对面实时交互。
在语音识别领域,火山语音依托业界领先的端到端语音识别模型以及长期在金融、汽车、泛互等行业积累的数据经验,在数十个领域的真实场景数据反馈下,其字准率可达92%以上。而在语音合成方面,借助行业独特的端到端交互式合成技术,火山语音能够精準还原真人的韵律、笑声、副语言等细节,对象感极强,使得测听人员难以分辨出合成语音与真人录音之间的差异。总的来说,火山引擎数字人集成了全双工语音交互链路,支持前向兼容的语音和文本输入,同时后向兼容2D与3D数字人的表现力。其整体端到端交互延迟大约在500ms左右,性能效果达到了业内领先水平。值得一提的是,未来火山引擎数字人还将继续集成火山视觉“可看”的能力,从而实现数字人语音交互向多模态交互的升级。
多模态交互数字人技术环路
火山语音的”AI虚拟数字员工解决方案”现已拥有标准平台的高效交付功能,针对金融、大消费、泛互等多个行业,向客户提供了包括”金融客服”、”智慧导览”、”智能助理”以及”虚拟直播”等多元化的场景化细分解决方案,从而带给用户前所未有的互动体验和便利性。
火山引擎虚拟数字人平台
在“激发无限创意,提升业务增长”的目标驱动下,火山引擎AI基于多年沉淀的人工智能技术,将音视频、直播、AR等多种内容形态下的创作能力,灵活高效地赋能企业内部工具以及用户产品中,持续为用户体验和业务增长注入创新势能。未来,以此为基,火山语音在持续提供全球领先的语音AI技术能力以及卓越的全栈语音产品解决方案的同时,将继续深耕AI数字人技术,不断探索前沿科技与业务场景的高效结合,以实现更大的用户价值。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!