文章主题:科技发展, 数字经济, 企业数字化转型, 云计算技术
在科技进步和数字经济广泛普及的背景下,企业实现数字化转型已经成为了一种必然的趋势。在此过程中,云计算技术的应用和创新已经变成了推动企业数字化增长的关键动力。如今,越来越多的企业开始意识到 cloud 上行的关键性, industry 普遍达成了“坚定上云、非必要不自建”的共识。
火山引擎,作为字节跳动旗下的一站式云服务平台,深度挖掘并开放了其在快速成长过程中总结的先进策略、技术实力以及实用工具。这一举措旨在协助各类企业借助用户体验创新、数据驱动决策以及业务敏捷迭代等手段,全面提升自身的数字化能力,从而实现业务的持续性增长。
在2023年的4月18日,春季火山引擎FORCE原动力大会隆重召开。在这个重要的会议上,火山引擎公司发布了一系列自主研发的云产品,其中包括DPU等先进技术。此外,他们还推出了智能推荐——高速训练引擎,这一创新产品能够支持100GB-10TB的超大模型高效训练。火山引擎采用了软硬一体的优化设计,使得面向推荐场景的高速训练更加迅速,同时成本也得到了显著降低。
大规模推荐模型,企业面临的新挑战
在当前信息爆炸的时代背景下,人们所面临的信息过载问题日益加剧。在这种状况下,如何运用智能推荐系统在短时间内吸引用户的注意力,并帮助他们迅速定位到自己感兴趣的内容,已经变成了各行各业企业共同面临的紧迫问题,亟需寻找有效的解决方案。
通过对用户产品使用历史记录和兴趣偏好的深入挖掘,智能推荐系统能够精准地为用户推送与之高度相关的信息、商品或服务,进而显著提升用户的点击率和转化率。智能推荐系统的出现,不仅对提高用户满意度、忠诚度、留存率和转化率具有重要作用,同时也能协助企业有效降低营销成本,提升营销效益。
近年来,智能推荐模型的成功应用成为AI领域的一大亮点,许多企业纷纷自主搭建该模型。然而,随着深度学习技术的不断演进,模型规模和复杂度也在不断提升,这给一些企业在处理相关问题方面带来了挑战。这些难题往往需要企业借助外部力量来解决。
这些难题主要体现在以下几个方面。
在实际应用中,要实现推荐系统的有效运行,关键在于降低训练成本并确保推荐效果的实时性。对于企业而言,如何在一个较短的时间内,以相对较低的成本来完成大量数据的有效训练,是一个亟待解决的问题。因此,提高训练效率、降低成本就成为了推荐系统优化的重要目标。
个性化推荐系统具有场景特征和模型复杂度高的特点,这使得模型规模逐渐增大。同时,推荐引擎还需满足时效性的要求,实时跟踪用户的兴趣变化。然而,传统的CPU训练算法无法应对大规模并行向量计算的需求,也无法满足企业在大模型训练方面的速度要求。因此,我们需要探索更高效的训练方法来应对这些挑战。
最后, 在企业优化推荐算法和模型、提高推荐的准确性和效果的过程中造成系统的抖动和不稳定,也极易因为体验不佳,造成用户的流失。
总而言之,对于各行各业的企业而言,智能推荐大模型训练普遍存在贵、慢、不稳定的痛点。
高速训练引擎,抖音同款模型能力
此前,火山引擎通过抖音等业务大规模个性化模型的探索与沉淀,为众多企业客户提供了智能推荐引擎,助力他们实现个性化用户体验,并在用户留存、停留时间、GMV等维度获得了极大提升。
图:智能推荐-高速训练引擎
本次大会上火山引擎发布的产品——“智能推荐-高速训练引擎”则是为了进一步实现大模型落地而诞生的,集成了抖音、头条等业务的最佳技术实践,尝试解决各行各业的企业训练大规模个性化模型存在的痛点和问题。
火山引擎的智能推荐-高速训练引擎使用了以下方式解决这些问题:软硬一体优化、细粒度算子优化,以及分布式训练和推理。
软硬件一体化的GPU训练,能够将最新体系架构的硬件性能发挥到极致,大幅缩短训练时间,帮助企业提高大规模个性化模型的训练效率,降低训练成本,快速验证模型对业务效果的影响。
针对关键场景的超大模型,火山引擎智能推荐-高速训练引擎提供了全GPU方案,可以支持100GB-10TB的超大模型的高速训练,综合ROI是CPU的5倍;覆盖更多场景的模型,提供了GPU+CPU混训方案,综合ROI是CPU的2倍。
针对搜广推场景, 细粒度算子优化, 性能更好。在训练时,通过算子融合并精细调优,性能提升20%。在推理时,通过算子优化,性能提升40%。
智能推荐-高速训练引擎为了保障系统的稳定性,支持训练和推理的全方位容错,当某一个节点故障时,可以快速恢复;支持分布式推理, 包括多分片, 多副本,从而保证线上服务的高可用。
做完上述以及其他一系列优化后,抖音、今日头条等基于火山引擎高速训练引擎的业务,模型训练时间加速比10x-25x,综合成本降低25%-67%。
而在外部,火山引擎高速训练引擎的价值也得到了多家企业的验证。
例如,与中国某社交平台的合作,火山引擎成功帮助客户解决了训练速度慢,无法快速验证模型效果的问题,将训练速度提升了12倍——原本客户侧耗时1800分钟的模型训练,在火山引擎侧仅耗时150分钟。在模型优化上,火山引擎百G模型与客户2T级别模型相比,效率无明显下降,且离线效果指标全部正向,帮助客户实现了大幅的降本增效。
更普惠的AI基础设施,助力企业智能化发展
这次发布会,火山引擎除了发布智能推荐-高速训练引擎外,还推出了新版机器学习平台:支持万卡级大模型训练、微秒级延迟网络,让大模型训练更稳更快。据介绍,火山的机器学习平台支持GPU弹性计算实例灵活调度资源,随用随取,最高可以为客户节省70%的算力成本。
此外,火山引擎也宣布与字节跳动国内业务并池,基于内外统一的云原生基础架构,抖音等业务的空闲计算资源可极速调度给火山引擎客户使用,弹性计算抢占式实例的价格最高可优惠80%以上。
不论是智能推荐-高速训练引擎、机器学习平台,还是其与字节跳动国内业务并池,火山引擎动作背后都有一个共同的特征——提供普惠的AI基础设施。
ChatGPT在世界范围内的爆火,让大家看到了智能化的未来,这波浪潮将会重塑各行各业的生产、运营、管理、营销等各个环节。
要想实现行业智能化升级,国内各行各业都需要普惠的AI基础设施。显然,火山引擎是想通过更普惠的AI基础设施,助力企业智能化发展。
编辑:高明
科技发展, 数字经济, 企业数字化转型, 云计算技术
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!