AI大模型技术应用爆发,云市场也在加速变革。
在4月18日的“原动力大会”上,火山引擎公司发布了一系列自研云产品,其中包括DPU等新型云设备以及全新版机器学习平台。该平台能够支持万卡级大模型的训练,同时实现微秒级的延迟网络,从而使得大模型的训练更加稳定和高效。火山引擎的总裁谭待在会上明确表示,AI大模型具有巨大的潜力和创新空间,而火山引擎将会致力于服务客户,与各方携手推动各行各业的智能化升级。
在我国,有众多公司在大型人工智能模型领域崭露头角,其中大部分已经选择了火山引擎云作为他们的合作伙伴。然而,谭待并不认为这些大模型将会被任何一家公司独自垄断。相反,火山引擎云的独特之处在于,它不仅会积极推广自家的大模型,还将与多家大模型展开深度合作,从而为企业和个人提供更加丰富多样的AI应用场景。
在会议上,火山引擎宣布与字节跳动在国内业务上达成合作。通过整合内外部的统一云原生基础架构,火山引擎可以为抖音等业务提供闲置计算资源的快速调度。此外,针对离线业务资源,可实现分钟级调度,确保10万核CPU的稳定运行。对于在线业务资源,可采用潮汐复用的策略,提高资源利用效率。值得一提的是,弹性计算抢占式实例的价格最高可享受80%以上的优惠,进一步降低用户成本。
让大模型训练快速跑起来
自2022年12月以来,ChatGPT作为一款消费级互联网应用,其用户数量迅速增长并成功突破亿级别,创下了历史之最。而随着GPT-4大模型的推出,其在法律、数学、生物学等领域的表现更是超越了90%的人类水平,展现了强大的智能实力。
许多我国科技公司在大型模型建设领域投入巨大,拥有出色的技术团队和深厚的行业背景以及创新思维,然而却普遍存在着缺乏大规模场景实践的系统工程能力的遗憾。为此,火山引擎应运而生,致力于为大模型客户提供稳定且高效、具有高性能和性价比的AI基础设施,从而帮助他们在实际应用中更好地发挥自身优势。
据报道,经过抖音等大量用户业务的长时间磨砺,火山引擎机器学习平台已经具备了支持单任务万卡级别的超大规模分布式并行训练场景的能力。该平台可以灵活调度GPU弹性计算实例,根据实际需求随时调用,从而最大限度地节省客户的算力成本,最高可以降低70%。
杨震原,字节跳动副总裁,坚信业务创新离不开试错。但他同时强调,试错并非盲目,而应大胆且敏捷,同时也要严格控制成本。他提出了一种名为“潮汐”和“混部”的方法,借助这些策略,火山引擎实现了资源的高利用率以及极低的成本。举例来说,抖音推荐系统的工程师仅用15个月的样本训练出一个模型,短短5小时内便能完成训练,成本仅为5000元。再比如,抖音上火爆的“AI绘画”特效,从启动到上线仅需一周多的时间,这个模型由一名算法工程师完成训练。
图:字节跳动副总裁杨震原分享抖音的机器学习实践
MiniMax公司在国内AI领域独树一帜,成为少数成功研发自研大模型产品的AI技术公司。他们具备文本、视觉和声音三种通用大模型引擎的能力。据了解,MiniMax与火山引擎携手打造了超大规模实验平台,使得千卡级别的常态化的训练成为可能。同时,他们的超大规模推理平台具有万卡级的算力,能够支持单日超过亿次次的调用。在火山引擎的云计算平台上,MiniMax的大模型业务得以迅速发展并取得了显著的成果。
谭待透露,火山引擎的大模型云平台获得智谱AI、昆仑万维等众多企业的良好反馈。国内大模型领域,七成以上已是火山引擎客户。
向“多云多模型”架构演进
有评论称,大模型将成为云厂商弯道超车的机会。谭待对此表示,大模型还在发展初期,面临数据安全、内容安全、隐私保护、版权保护等许多问题需要努力解决。但可以预见,大模型将带动云上AI算力急剧增长,AI算力的工作负载与通用算力的差距会越来越小,这会为各家云厂商带来新的机会,同时也会对数据中心、软硬件栈、PaaS平台带来新的挑战。
以数据中心的算力结构为例,谭待表示:“大模型需要大算力,虚拟化会带来资源损耗,规模越大就损耗越多。未来3年内,大规模的算力中心,都将形成‘CPU+GPU+DPU’的混合算力结构,CPU负责通用计算,GPU负责AI计算,DPU负责资源卸载、加速和隔离,提升资源效率”。
此次原动力大会上,火山引擎发布了新一代自研DPU,实现计算、存储、网络的全组件卸载,释放更多资源给业务负载。火山引擎尽管是“最年轻”的云厂商,其自研DPU已达到业界领先水平,网络性能高达5000万pps转发能力、延迟低至20us。基于自研DPU的各类计算实例性能也有显著提升,例如适用于大模型分布式并行训练场景的GPU实例,相较上一代实例集群性能最高提升3倍以上。
自动驾驶公司毫末智行与火山引擎合作打造智算中心,为DriveGPT自动驾驶生成式预训练模型提供强大的算力支持。毫末智行CEO顾维灏介绍,DriveGPT使用量产车4000万公里的人驾数据训练,参数规模达1200亿,对自动驾驶认知决策模型进行持续优化。
谭待表示,在大模型及下游应用发展推动下,无论传统企业还是初创企业,对AI算力都有迫切需求,企业使用多家云服务将成为常态。同时,各行业有自己高质量的私有语料,大模型不会一家独大,而是会在千行百业生长,形成多模型共生甚至协作的生态。“未来将是‘多云多模型’的时代”,谭待称。
图:火山引擎总裁谭待宣布支持“多云多模型”的未来架构
火山引擎也顺势推出了分布式云原生平台、多云安全、多云CDN、veStack混合云平台等系列产品,支持客户更好地使用多家云服务。“字节跳动用过全球几乎每一朵公有云,以及大多数CDN,形成一套完整的分布式云管理体系和架构实践”,谭待坚信火山引擎是最懂多云和分布式云的云服务商,这些技术能力都会毫无保留地提供给客户。
杨震原进一步表示,火山引擎对内对外提供统一的产品,抖音、今日头条等APP开屏都加上了“火山引擎提供计算服务”。杨震原说:“数字化时代,机器学习可以智能、高效地围绕目标解决问题。数字化的下一步是智能化,我们在机器学习方面的技术积累和经验,都会通过火山引擎提供给外部客户,帮助更多企业做好智能化”。
AI大模型, 火山引擎, 云市场, 云产品
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!