《原动力大会：火山引擎发布DPU等云产品，推动AI大模型发展》

火山引擎2yrs ago (2024)update lida

145 0 0

文章主题：火山引擎, 大模型, AI基础设施, 云原生基础架构

在4月18日的“原动力大会”上，火山引擎公司发布了一系列自研云产品，其中包括DPU等新型云设备以及全新版机器学习平台。该平台能够支持万卡级大模型的训练，同时实现微秒级的延迟网络，从而使得大模型的训练更加稳定和高效。火山引擎的总裁谭待在会上明确表示，AI大模型具有巨大的潜力和创新空间，而火山引擎将会致力于服务客户，与各方携手推动各行各业的智能化升级。

作为一款备受好评的大模型云平台，火山引擎得到了包括智谱AI、昆仑万维在内的众多企业的肯定。在国内大模型领域，超过70%的企业已经成为火山引擎的客户。事实上，我国有数十家致力于发展大模型的企业，其中大部分已经选择了在火山引擎云平台上开展业务。与其他云服务商强调自家大模型不同，火山引擎选择与多家大模型展开深度合作，旨在为企业和消费者带来更为丰富和多样的AI应用。这一策略不仅体现了火山引擎对大模型技术的重视，也显示了其开放合作的决心。

在会议上，火山引擎宣布与字节跳动在国内业务上达成合作。通过整合内外部的统一云原生基础架构，火山引擎可以为抖音等业务提供闲置计算资源的快速调度。此外，针对离线业务资源，可在分钟级别实现10万核CPU的调度；对于在线业务资源，可以实现潮汐式的复用。在弹性计算方面，抢占式实例的价格最高可享受80%以上的优惠。这一举措将有助于提高整个行业的计算效率，推动业务的发展。

让大模型训练快速跑起来

自2022年12月以来，ChatGPT作为一款消费级互联网应用，其用户数量迅速增长并成功突破亿级别，创下了历史之最。而随着GPT-4大模型的推出，其在法律、数学、生物学等领域的表现更是超越了90%的人类水平，展现了强大的智能实力。

许多我国科技公司在大型模型建设领域投入巨大，拥有出色的技术团队和深厚的行业背景以及创新思维，然而却普遍存在着缺乏大规模场景实践的系统工程能力的遗憾。为此，火山引擎应运而生，致力于为大模型客户提供稳定且高效、具有高性能和性价比的AI基础设施，从而帮助他们在实际应用中更好地发挥自身优势。

据报道，经过抖音等大量用户业务的长时间磨砺，火山引擎机器学习平台已经具备了支持单任务万卡级别的超大规模分布式并行训练场景的能力。该平台可以灵活调度GPU弹性计算实例，根据实际需求随时调用，从而最大限度地节省算力成本，最高可以降低70%。

“降本增效”是今年的关键词

杨震原，字节跳动副总裁，坚信业务创新离不开试错。他主张大胆且敏捷地尝试新事物，同时严格控制成本。火山引擎便运用潮汐、混部等策略，实现了资源的高利用率和极低成本。以抖音推荐系统为例，工程师仅用15个月的时间，就完成了某个模型的样本训练，而整个过程仅需5小时，成本仅为5000元。再如，抖音上火爆的“AI绘画”特效，从启动到上线仅用了不到一周的时间，该模型由一名算法工程师高效完成训练。

字节跳动副总裁杨震原分享抖音的机器学习实践

MiniMax公司在国内AI领域独树一帜，成为少数成功研发大模型产品的技术创新者，具备文本、视觉、声音三大通用大模型引擎实力。据该公司联合创始人杨斌透露，MiniMax与火山引擎强强联手，共同打造超大规模实验平台，实现了千卡级常态化的训练规模；同时，其超大规模推理平台具备万卡级算力，能够轻松应对每日超过亿次的高调用需求。在火山引擎强大的云基础设施之上，MiniMax的大模型业务得以迅速发展并取得了显著的成果。

向“多云多模型”架构演进

可以预见，大模型将带动云上AI算力急剧增长，AI算力的工作负载与通用算力的差距会越来越小，这会为各家云厂商带来新的机会，同时也会对数据中心、软硬件栈、PaaS平台带来新的挑战。但目前大模型还在发展初期，面临数据安全、内容安全、隐私保护、版权保护等许多问题需要努力解决。

以数据中心的算力结构为例，谭待表示：“大模型需要大算力，虚拟化会带来资源损耗，规模越大就损耗越多。未来3年内，大规模的算力中心，都将形成‘CPU+GPU+DPU’的混合算力结构，CPU负责通用计算，GPU负责AI计算，DPU负责资源卸载、加速和隔离，提升资源效率”。

此次原动力大会上，火山引擎发布了新一代自研DPU，实现计算、存储、网络的全组件卸载，释放更多资源给业务负载。火山引擎尽管是“最年轻”的云厂商，其自研DPU已达到业界领先水平，网络性能高达5000万pps转发能力、延迟低至20us。基于自研DPU的各类计算实例性能也有显著提升，例如适用于大模型分布式并行训练场景的GPU实例，相较上一代实例集群性能最高提升3倍以上。

自动驾驶公司毫末智行与火山引擎合作打造智算中心，为DriveGPT自动驾驶生成式预训练模型提供强大的算力支持。毫末智行CEO顾维灏介绍，DriveGPT使用量产车4000万公里的人驾数据训练，参数规模达1200亿，对自动驾驶认知决策模型进行持续优化。

谭待表示，在大模型及下游应用发展推动下，无论传统企业还是初创企业，对AI算力都有迫切需求，企业使用多家云服务将成为常态。同时，各行业有自己高质量的私有语料，大模型不会一家独大，而是会在千行百业生长，形成多模型共生甚至协作的生态。“未来将是‘多云多模型’的时代”，谭待称。

火山引擎总裁谭待宣布支持“多云多模型”的未来架构

火山引擎也顺势推出了分布式云原生平台、多云安全、多云CDN、veStack混合云平台等系列产品，支持客户更好地使用多家云服务。“字节跳动用过全球几乎每一朵公有云，以及大多数CDN，形成一套完整的分布式云管理体系和架构实践”，谭待坚信火山引擎是最懂多云和分布式云的云服务商，这些技术能力都会毫无保留地提供给客户。

杨震原进一步表示，火山引擎对内对外提供统一的产品，抖音、今日头条等APP开屏都加上了“火山引擎提供计算服务”。杨震原说：“数字化时代，机器学习可以智能、高效地围绕目标解决问题。数字化的下一步是智能化，我们在机器学习方面的技术积累和经验，都会通过火山引擎提供给外部客户，帮助更多企业做好智能化”。

封面新闻记者李琪

【如果您有新闻线索，欢迎向我们报料，一经采纳有费用酬谢。报料微信关注：ihxdsb，报料QQ：3386405712】

火山引擎, 大模型, AI基础设施, 云原生基础架构

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！