发力AI大模型训练服务,火山引擎原动力大会引关注
4月18日,字节跳动旗下的云服务平台火山引擎在其举办的“原动力大会”上重磅发布了多款云产品,其中,全新升级的机器学习平台凭借领先的性能和基于抖音大规模机器学习工程实践的经验而格外受到外界关注,也显示出火山引擎致力于成为AI大模型训练发动机的决心。
火山引擎自研DPU发布
作为云计算和数字化领域的头部盛会,火山引擎原动力大会延续了“敏捷迭代”“数据驱动”“体验创新”的增长三要素。除了技术驱动极致性价比,开放共享和业务价值驱动也是火山引擎始终坚持的做云服务的理念。
值得注意的是,火山引擎此次发布的多款技术产品已经被实际应用到这场发布会中,贯穿整个大会,并取得了较为惊艳的效果。火山引擎原动力大会上究竟采用了哪些科技与狠活儿,电脑报记者带你一探究竟。
技术成果与应用零距离接触
在这次大会开始之前,电脑报作为受邀人,在填写报名信息后就可以自动生成漫画风格头像邀请函。尽管对科技圈人士来说,这已经是比较普遍的多模态生成技术的应用了,市面上基于AI算法、输入文字或图片即可生成相应的高质量图片的产品并不少,但火山引擎的优势在于这一智能绘图产品性能更强可以更快速的出图。
火山引擎AI团队基于Stable Diffusion模型,利用自研Diffusion Model蒸馏算法,减少了采样步数,显著降低了推理耗时,因此其智能绘图相对于官方基准模型的出图速度可以提升4~8倍,且效果更加精细稳定。
火山引擎在生成式AI赛道的应用
经过AI算法生成的漫画风格图片
这种效率的提升首先就应用在了字节旗下的社交短视频平台上——去年在抖音上走红的“AI绘画”特效,从启动到上线只有一周左右,模型训练仅由一名算法工程师完成,生成图片的速度已经能控制在5秒左右。通过采用DataFinder增长分析平台为邀请函埋点,火山引擎还能通过数据分析,了解受邀客户对最新技术及火山引擎产品的关注度。
拍视频、拍Vlog是网络原住民们记录生活的最佳方式之一,在大会现场,媒体参与者可以直接通过“智能硬件拍摄+云端剪辑”的方式,享受高精度“自动打卡”视频成片。不仅降低了用户拍摄Vlog的硬件和技术门槛,还可以直接连接抖音集团旗下的短视频平台,发布成片,这也是火山引擎音视频云端一体解决方案的充分展示,对于文旅、营销、城市文化等行业,这一方案有助于提升游客和用户的场景体验,打造文化IP,提升品牌宣传效果。
音视频技术降低Vlog拍摄门槛
在一些不经意的角落也可以看出火山引擎在算力调度上的经验优势。会场中,参会者可以随时看到展区即时的人流热力图、曲线等,这都是利用展区部署的摄像头对展区人流量及重点区域停留时间进行识别与分析得到的,利用的都是边缘云基础设施。据了解,以上技术未来可以面向更多边缘领域的业务场景,比如物联网提供服务等等。
边缘云的应用
本次大会十几场主题演讲和论坛分享会的直播更能展示出火山引擎在音视频技术上的积累。大会的直播间里,火山引擎视频云、火山同传、全站加速等产品相继上阵,无论是在现场还是在线上都能获得高清流畅的参会体验。
火山引擎总裁谭待认为,我们现在所处的时代,可以被划分为“超视频”时代,互联网用户对视频有了更极致的需求,不再仅仅满足于清晰流畅的观看体验,而是对高清化、交互性、沉浸式的体验有了更多诉求。
据了解,在2022年抖音世界杯直播中,火山引擎支持了累计106亿人次的直播观看,决赛直播观看人数更是高达2.3亿;更高清方面,火山引擎通过自研BVC编码器与智能编码方式,大幅提升直播画质;互动方面,火山引擎通过RTC开拓了边看边聊互动模式,通过SFU+MCU融合方案,同时兼顾好了用户规模和互动体验;更沉浸方面,火山引擎支持了PICO的VR直播,基于全真超清显示技术,让观影清晰度提升50%。
随着需要处理的数据体量不断攀升,音视频应用对计算和存储架构性能的要求也日益严苛。尤其在高吞吐量、大数据量请求的场景下,需要寻求一种可以经济高效地扩展容量同时又不影响系统性能的方案。
火山引擎则在架构探索出了一条创新路径——通过端云一体的整体架构,从边缘基础设施的支撑、计算+网络的数字基础服务到视频云的应用解决方案提供生产、存储、处理到分发的全栈能力。
在大会中,火山引擎也带来6款音视频方向的新产品和相关升级:火山引擎云游戏产品,提供面向云游戏渲染、试玩和互动的一站式服务;创意互动Vlog,提供全新高精度拍摄和自动成片技术;升级AR互动营销方案,优化AR try-on和AR互动能力,打通抖音广告和电商;WTN(WebRTC传输网络),帮助客户实现高清、实时的线上互动体验;升级数字人产品,增加支持十多种“外语”,生成趋近于真人的数字分身;音视频云端一体解决方案veVOS,周级别内即可完成应用上线。
文物修复同样需要视频云的算法技术支撑
以近期火山引擎携手PICO技术支持古籍活化的VR互动纪录片《古籍寻游记》为例,为了保护文物,火山引擎视频云可以采用神经辐射场技术,在不伤害文物的低噪情况下,扫描重建出文物的三维结构。
据了解,这类VR视频制作中,空间建图是行业的一个难题,除了模型本身的结构会更复杂,质感想做好也很难。在重建敦煌石窟场景的过程中,火山引擎视频云团队由于具备基于视觉、RGBD数据集,以及多模态数据作为支撑,只需要扫描视觉数据,再融合应用SLAM、深度学习等技术,就能对场景及其细节进行更快速和精准的复刻。
与火山引擎发布的机器学习平台经过抖音等海量用户业务长期打磨的逻辑相同,火山引擎原动力大会上各项技术的落地亮相,很好地呼应了火山引擎对自己的介绍:将字节跳动快速发展过程中积累的增长方法、技术能力和应用工具开放给外部企业,帮助企业构建用户体验创新、数据驱动决策和业务敏捷迭代等数字化能力,实现业务可持续增长。
作为一朵“新云”,火山引擎区别于其他厂商的路径其实很明晰,如谭待所言:“不管是今天还是未来,我们都会围绕着敏捷迭代、数据驱动和体验创新这三个要素去构建产品服务体系”。秉持这样的理念,在AI大模型推动云上创新的大趋势下,火山引擎能否借力弯道超车,让我们拭目以待。