2023年伊始,毫末智行就在AI DAY上发布了与火山引擎联手打造的智算中心MANA OASIS。新的智算中心位于山西大同,将主要用于毫末智行的自动驾驶大模型训练。
毫末智行CEO顾维灏表示,当前数据已经成为所有自动驾驶企业的核心资源,面对越来越多的数据爆炸,如何高效快速处理成为了最大的难题。而MANA OASIS让毫末拥有了超级计算能力,数据、算力充沛,毫末的技术产品能力将更加强大。“在‘MANA OASIS’加持下,毫末将冲刺进入自动驾驶3.0时代。”
据介绍,整个硬件性能在计算能力方面,新的智算中心浮点运算可以达到每秒67亿亿次,存储带宽达到每秒2T,通信带宽方面达到每秒800G。支持百亿级小文件高速读写,每台服务器配置8个GPU卡,通过600G/s的双向NVSwitch高速互联,进行通信;MANA OASIS服务器之间通过4张200G带宽的RDMA网络互联,提供高达800G/s的网络带宽。
谈到大型智算中心对自动驾驶技术迭代发展的意义,毫末智行董事长张凯说,“超算中心会成为自动驾驶企业的入门配置,因为随着城市辅助驾驶系统的推进,数据量会呈现爆发式的发展。对于自动驾驶领域来说,有太多新技术需要进行尝试和迭代,云计算的效率越来越重要,甚至将成为核心的竞争力”。
事实上,大规模自动驾驶数据上云正对自动驾驶公司构成很大挑战。一方面,随着城市辅助驾驶系统的发展真正进入大数据时代,处理成本也变得越来越高. 大模型的数据量和模型本身的参数量非常大,差不多能达到千亿级别,这会导致如果用常规的训练方式成本非常昂贵。自建智算中心,才能降低数据处理成本。
另一方面,建立智算中心,可以快速的部署大模型和新算法。当前,人工智能发展加快,新的算法层出不穷,需要尽快引入新的技术和新的模型,同时需要更好的并行计算框架,提高训练效率,减少硬件浪费。
为了能够进一步提升和发挥智算中心的优势,火山引擎为MANA OASIS智算中心提供了高效的算力加速方案,包括高效建模框架、高性能算子库、以及通信网络方面的定制优化等。其中,在算力优化方面,部署了Lego高性能算子库、ByteCCL通信优化能力、以及大模型训练框架;在训练效率方面,基于Sparse MoE,通过跨机共享,轻松完成千亿参数大模型训练。
基于火山引擎的端到端的智算云解决方案,MANA OASIS算力达670PFLOPS(每秒浮点运算达到67亿亿次),助力毫末智行的模型训练效率提升了100倍。而在MANA OASIS的加持下,毫末核心的MANA五大模型——人驾自监督认知大模型、视觉自监督大模型、多模态互监督大模型、3D重建大模型、动态环境大模型,也全面提升了感知和认知层面系统化的底层技术能力。
据了解,在智算中心助力下,毫末量产自动驾驶产品有望迭代加速,预计2024年上半年,毫末城市NOH落地将达到100城,2025年实现全无人驾驶。