文章主题:火山引擎, 大模型, AI算力, 云原生机器学习平台
作为一家专注于提供算力和服务的科技公司,火山引擎近日宣布将为我国致力于大型模型开发的企业提供支持。该公司的目标是成为算力领域的领导者,从而帮助客户实现更高效的运算。在最近的采访中,火山引擎的总裁谭待表示,他们的主要任务包括两个方面:一是提供强大的算力支持,二是构建云原生机器学习平台,以便企业能够充分利用这些算力资源,进一步提高工作效率,确保大型模型的训练过程既快速又稳定。
之前有过传闻,我国知名科技公司字节跳动参与了一场国内AI大模型的竞赛。这个由Tik Tok产品技术负责人朱文佳领导的团队,将会在抖音和TikTok的搜索功能、AI生成图片和视频等领域发挥作用。此外,投资界和行业界也对字节跳动自研的大模型充满期待。然而,这次备受瞩目的火山引擎并没有推出大模型产品,反而宣布了一系列云产品的发布,以及新版机器学习平台的上线。这个平台能够支持万卡级大模型的训练,并且具有微秒级的延迟网络,通过弹性计算可以节省70%的算力成本。而基于自研DPU(中央处理器分散处理单元)的GPU(显示处理器)实例,其性能相较于上一代的集群提升了三倍以上。
在当前的时代背景下,包括大模型公司在内的众多企业客户,将算力问题视为首要需求。为了应对这一挑战,腾讯公司推出了高性能计算集群解决方案。这个名为“高性能计算集群”的项目,主要是借助腾讯云旗下星星海自研服务器,以及英伟达最新一代的H800 GPU,构建了一个能够提供3.2T超高互联带宽的高性能、高带宽和低延迟的集群算力平台。这个平台的应用场景包括但不限于大模型的训练、自动驾驶以及科学计算等领域,从而为企业客户提供更加高效、稳定的算力支持。
谭待认为当前的算力压力值得关注。他指出,大模型正处于起步阶段,面临着诸如数据安全、内容安全、隐私保护以及版权保护等诸多挑战。然而,预见未来,随着大模型的快速发展,云上AI算力的增长将会显著,其工作负载与通用算力的差距也将逐渐缩小。这不仅为各云服务商带来了新的机遇,同时也给数据中心、软件硬件架构以及PaaS平台带来了新的挑战。
关于如何缓解算力压力的问题,谭待向第一财经解释道,H800芯片作为一种标准产品,已被各大云服务商广泛采用。同样,网络带宽的设计也因应用场景的不同而有所差异,无论选择1.6T(代表每秒数据传输率为1.6太比特)还是3.2T,都各具特点。对于核心的1.6T带宽,它更适合某些特定应用环境,这种情况下,带宽的性价比更高。然而,如果用户追求更快的传输速度,例如达到万卡级别的并行训练(即使用一万张高性能GPU卡进行分布式训练),那么就需要更复杂的网络架构来支撑。
相对于其他竞争对手,火山机器学习平台具有显著的优势,即内外兼修。首先,在内部,该平台借助抖音平台进行广告推广,从而在大规模场景下进行了有效的训练。其次,在外部,火山也与生物制药、自动驾驶等不同行业的主要合作伙伴建立了合作关系。这些实战经验的积累对于评估平台的优劣至关重要。谭待称强调,“只有在真实、大规模的场景中经过磨砺,平台的价值才能得到真正体现。”
对于当前大量涌现的大模型公司,谭待作为服务和技术提供方之一,向记者表示,他们的客户群体既包括垂直行业,也包括通用型大模型客户。然而,在2022年,行业中的趋势则是更多地关注垂直类行业。例如,包括推荐算法和自动驾驶行业在内的诸多领域都开始显露出模型规模逐渐扩大的迹象,这让火山提前做好了充分的准备。到了去年底和今年初,基础大模型公司的爆发让火山看到了自己过去积累的技术和经验得以应用的机会,同时也根据新的需求进行了相应的优化。现在,在大模型客户的类别上,谭待透露,大约有三分之一的是通用型大模型公司,而剩下的三分之二则是垂直行业公司。
作为我国领先的云服务提供商,阿里云近期推出了ECS企业级通用算力型U实例。这一新产品的发布,标志着阿里云在算力领域的一次重大突破。值得注意的是,这款ECS实例的价格较上一代主销实例最高可降低40%,这无疑为用户提供了更为实惠的选择。与此同时,阿里云还推出了对象存储预留空间产品,其价格最多可降70%。这样的举措不仅进一步降低了用户的成本,同时也体现了阿里云在存储领域的强大实力。除此之外,阿里云还为开发者推出了“飞天免费试用计划”,旨在鼓励更多的用户参与到云计算中来。这一计划的推出,无疑将为我国的开发者生态带来新的活力。在当前云服务商之间的竞争激烈的环境下,阿里云的这些举措显得尤为重要。谭待在接受第一财经采访时表示,火山也正在通过技术提升性价比,以满足不同用户的需求。例如,通过火山与字节跳动国内业务的合并,我们可以实现内外统一的云原生基础架构。这样一来,抖音等业务的空闲计算资源可以快速调度给火山引擎客户使用,离线业务资源可以在分钟级进行调度,10万核CPU的在线业务资源也可以实现潮汐复用。在计算资源的分配上,弹性计算抢占式实例相比常规产品最高可以享受80%以上的优惠,这将大大提高资源利用率,实现极低的成本。总的来说,阿里云的这些措施无疑为其在云服务市场的竞争中增添了强大的筹码。
以抖音推荐系统为例,火山方面展示了一个令人瞩目的实例:工程师仅用15个月的时间,便针对该系统进行了样本训练,训练过程仅需5小时,且整体成本仅为5000元。此外,他们还成功地将火爆全网的抖音“AI绘画”特效推向市场,整个过程耗时不过一周多,而模型训练则由一名算法工程师负责完成。这一案例充分展示了我国在人工智能领域的技术实力与高效应用。
同时,谭待对第一财经表示,成本是云计算的关键竞争力,但成本问题需要通过技术手段可持续地做好,而不是通过短期的商业手段,后者不可持续。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!