火山引擎发布全新高速训练引擎,用抖音同款技术解决智能推荐痛点

火山引擎7mos agoupdate lida
95 0 0

随着科技的发展和数字经济的普及,企业数字化转型已经成为了必然趋势。在这个过程中,基于云计算技术的应用和创新已经成为了推动企业数字化增长的核心动力。越来越多的企业认识到了上云的重要性,“坚定上云、非必要不自建”已成为行业共识。

火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部,帮助企业围绕用户体验创新、数据驱动决策和业务敏捷迭代构建数字化能力,实现业务可持续增长。

在2023年4月18日举行的春季火山引擎FORCE原动力大会上,火山引擎发布自研DPU等系列云产品,并推出智能推荐-高速训练引擎,支持100GB-10TB+超大模型的高效训练,采取软硬一体优化设计等,让面向推荐场景的高速训练更快,成本更低。

大规模推荐模型,企业面临的新挑战

在信息爆炸的时代,人们面临的信息过载问题越来越严重。在这种情况下,如何通过智能推荐系统在短时间内抓住用户的注意力,让他们能够快速找到自己感兴趣的内容,已经成为了各行各业企业普遍面临、亟待解决的问题。

通过洞察用户产品使用的历史轨迹、兴趣偏好等授权数据,智能推荐系统可以为用户推荐最相关的内容、产品或服务,从而提高用户的点击率和转化率。智能推荐的存在,不仅对于用户的满意度、忠诚度、留存率和转化率的提升有重大影响,也可以帮助企业降低营销成本,提高营销效率。

作为近年来最成功的的AI应用落地场景之一,很多企业自主搭建了智能推荐模型。但随着深度学习模型越做越大、越做越深,不少企业遇到了自己无法独立解决的难题。

这些难题主要体现在以下几个方面。

首先是训练成本。推荐效果的一个核心诉求是能快速捕捉和反映用户不断变化的兴趣和当前热点,模型如何在短时间内,以可控的成本完成海量数据的训练,是企业面临的比较大的挑战。

其次,个性化推荐系统的场景特征和模型复杂,导致模型愈发庞大,加之推荐引擎同时需要满足时效性,实时掌握用户兴趣,传统的CPU训练算力由于无法实现大规模并行向量计算等原因,无法满足企业推荐大模型高速训练的需求。

最后, 在企业优化推荐算法和模型、提高推荐的准确性和效果的过程中造成系统的抖动和不稳定,也极易因为体验不佳,造成用户的流失。

总而言之,对于各行各业的企业而言,智能推荐大模型训练普遍存在贵、慢、不稳定的痛点。

高速训练引擎,抖音同款模型能力

此前,火山引擎通过抖音等业务大规模个性化模型的探索与沉淀,为众多企业客户提供了智能推荐引擎,助力他们实现个性化用户体验,并在用户留存、停留时间、GMV等维度获得了极大提升。

火山引擎发布全新高速训练引擎,用抖音同款技术解决智能推荐痛点图:智能推荐-高速训练引擎

本次大会上火山引擎发布的产品——“智能推荐-高速训练引擎”则是为了进一步实现大模型落地而诞生的,集成了抖音、头条等业务的最佳技术实践,尝试解决各行各业的企业训练大规模个性化模型存在的痛点和问题。

火山引擎的智能推荐-高速训练引擎使用了以下方式解决这些问题:软硬一体优化、细粒度算子优化,以及分布式训练和推理。

软硬件一体化的GPU训练,能够将最新体系架构的硬件性能发挥到极致,大幅缩短训练时间,帮助企业提高大规模个性化模型的训练效率,降低训练成本,快速验证模型对业务效果的影响。

针对关键场景的超大模型,火山引擎智能推荐-高速训练引擎提供了全GPU方案,可以支持100GB-10TB的超大模型的高速训练,综合ROI是CPU的5倍;覆盖更多场景的模型,提供了GPU+CPU混训方案,综合ROI是CPU的2倍。

针对搜广推场景, 细粒度算子优化, 性能更好。在训练时,通过算子融合并精细调优,性能提升20%。在推理时,通过算子优化,性能提升40%。

智能推荐-高速训练引擎为了保障系统的稳定性,支持训练和推理的全方位容错,当某一个节点故障时,可以快速恢复;支持分布式推理, 包括多分片, 多副本,从而保证线上服务的高可用。

做完上述以及其他一系列优化后,抖音、今日头条等基于火山引擎高速训练引擎的业务,模型训练时间加速比10x-25x,综合成本降低25%-67%。

而在外部,火山引擎高速训练引擎的价值也得到了多家企业的验证。

例如,与中国某社交平台的合作,火山引擎成功帮助客户解决了训练速度慢,无法快速验证模型效果的问题,将训练速度提升了12倍——原本客户侧耗时1800分钟的模型训练,在火山引擎侧仅耗时150分钟。在模型优化上,火山引擎百G模型与客户2T级别模型相比,效率无明显下降,且离线效果指标全部正向,帮助客户实现了大幅的降本增效。

更普惠的AI基础设施,助力企业智能化发展

这次发布会,火山引擎除了发布智能推荐-高速训练引擎外,还推出了新版机器学习平台:支持万卡级大模型训练、微秒级延迟网络,让大模型训练更稳更快。据介绍,火山的机器学习平台支持GPU弹性计算实例灵活调度资源,随用随取,最高可以为客户节省70%的算力成本。

此外,火山引擎也宣布与字节跳动国内业务并池,基于内外统一的云原生基础架构,抖音等业务的空闲计算资源可极速调度给火山引擎客户使用,弹性计算抢占式实例的价格最高可优惠80%以上。

不论是智能推荐-高速训练引擎、机器学习平台,还是其与字节跳动国内业务并池,火山引擎动作背后都有一个共同的特征——提供普惠的AI基础设施。

ChatGPT在世界范围内的爆火,让大家看到了智能化的未来,这波浪潮将会重塑各行各业的生产、运营、管理、营销等各个环节。

要想实现行业智能化升级,国内各行各业都需要普惠的AI基础设施。显然,火山引擎是想通过更普惠的AI基础设施,助力企业智能化发展。

编辑:高明

举报/反馈

© Copyright notes

Related posts

No comments

No comments...