对话火山引擎罗浩：大算力基础设施竞争的核心是软硬一体坚持自研

火山引擎2yrs ago (2024)update lida

141 0 0

出处：新浪财经

作者：韦子蓉

6月16、17日，由51CTO主办的WOT全球技术创新大会在京召开，50多位来自AI、云计算、大数据、架构等领域的讲师、专家出席大会，围绕“云时代基础设施”、“金融科技创新”、“人工智能算法与实践”等议题展开深度演讲和高端对话，共同探究新技术如何帮助企业实现数字化能力的飞跃和提升。

　　火山引擎云基础产品负责人罗浩受邀参加首日活动，就“大算力基础设施技术探索和实践”发表独特见解。据罗浩介绍，火山引擎自研的DPU网络性能达到5000万pps转发能力、延迟低至20us，基于自研DPU的各类计算实例性能也有显著提升。在接受新浪财经采访中，罗浩指出，“在ChatGPT发布后，大量的大模型训练算力需求涌现，对GPU算力提出了更高的要求。”

　　在他看来，面向未来的提前把控和创新是帮助客户的一个重要手段，也是构建差异化能力的思路之一。

大模型赛道火热算力成“香饽饽”

　　随着ChatGPT的诞生，国内外掀起了一波大模型热潮，在前赴后继的竞争中，算力成了“兵家必争之地”。据罗浩介绍，火山引擎整体的大算力，无论是通用算力还是弱算力，在技术架构上都有着比较快的迭代速度，且拥有长时间的积累。“过去几年，我们基本上做了至少三代架构上的演进，使得从存储到通用的CPU算力，包括现在大算力体系都有了非常大的进步。”罗浩说道。

　　在介绍火山引擎的基础架构演进时，罗浩详细阐述了火山引擎是如何找到一条适合自己发展的路径。他表示，作为云计算的后来者，火山引擎在聚焦存量市场的同时，不断提高自身的基础能力，包括IaaS、PaaS、PaaS+等。“我觉得瞄准增长市场，在增长市场里面，我们看得到一些新增的机会到底在什么地方，可能更重要一些。”罗浩说道。

　　在大模型火热背后，新的基于算力和基础设施的需求也在蓬勃生长，尤其是对存储和网络等方面的高要求成为了大模型的痛点。“在这样一个趋势中，我们会比较务实地去解决技术架构演进过程和算力具体使用中出现的一些突出问题。”罗浩表示，比如在网络方面，如何去支持类似于4000卡、8000卡甚至万卡规模的集群，实现网络延时优化的效果，以及在达到规模时，避免发生一些网络的拥塞问题等。“解决了这些问题和挑战后，我们的能力又沉淀到产品上来，形成闭环。这样可以更好地服务内部和外部客户，做好我们的产品竞争力。”罗浩补充道。

多模态万亿参数生变隐私安全等迎高要求

　　在ChatGPT发布后，大量的大模型训练算力需求不断增长，同时对网络、存储性能和规模也提出了更高的要求。在训练任务中，存储和读取checkpoint、读取训练数据、模型文件等场景下需要大量的计算、网络、存储之间的交互。分布式训练任务在扩大GPU集群规模需求的同时，还要求集群内的高速网络能够横向扩展且保证性能。

　　“自火山引擎对外发布起，软硬一体坚持自研就是我们的核心策略之一。”据罗浩介绍，火山引擎通过自研的DPU 2.0提供更高的带宽能力和转发能力，从而提升计算和存储之间的传输效率，来帮助大模型训练任务更高效地执行。面向大模型训练场景，火山引擎拥有高算力、网络性能调优、存储读写性能优化等优势。在算力方面，火山引擎推出了新一代搭载自研DPU、英伟达A100/A800，以及大规模RDMA网络的弹性裸金属机型，通过DPU的采用进一步释放单机的GPU算力。

　　对于未来技术展望方面，罗浩表示，大模型还在迅猛、蓬勃地发展，多模态、万亿参数等在不同行业生根落地，这些对于模型训练和部署都提出了更大的挑战。他指出，“在新一代的AI Infra架构中，我们判断大模型行业对算力规模、集群内网络带宽、通信模式、模型训练并行模式、存储性能、模型推理部署、隐私安全等都会有更高的要求。”

　　“未来，火山引擎还会提供安全可信的大模型服务平台（MaaS）来构建更加完善的大模型行业生态，我们始终站在行业用户的视角，提供更贴合客户场景的整体解决方案。”罗浩说道。