火山引擎发布云原生战略级产品意味着什么?
作者|八度
编辑|赵健
今年是火山引擎正式宣布进军云市场的第二年。
两年对于高投入、长周期回报的云来说,还不足以撼动已经发展十余年的国内云市场格局。但是,这朵背靠字节跳动的云,仍然备受关注。
云被看作数字化的基础设施,火山引擎对于字节跳动也是战略级业务。上个月,字节跳动CEO梁汝波在字节跳动11周年内部信中透露,公司对To B业务飞书与火山引擎的研发投入不低于抖音和TikTok。虽然目前ROI(投资回报率)并不划算,但他认为“做好企业服务,对字节成为一家好的科技公司很重要”。
4月18日,火山引擎举办FORCE原动力大会,向外界集中展示了IaaS、PaaS、SaaS一系列云产品。
其中,分布式云原生平台、函数服务veFaaS、流式计算Flink,是火山引擎本次发布的“云原生三大件”,解决企业的统一资源调度、弹性计算、实时计算等业务需求。火山引擎称之为云原生的战略级产品。
火山引擎做云,往往先从字节内部实践,验证成熟之后再向外推出“字节同款云”。基于内部经验,火山引擎总结了对外服务的三大理念:敏捷迭代、数据驱动、体验创新。
火山引擎的云原生三大产品也是如此,每一件产品的推出,都在字节跳动内部经过诸如春节红包、直播等几十种场景的苛刻验证,使用量达百万核。
火山引擎总裁谭待表示:“字节跳动用过全球几乎每一朵公有云,以及大多数CDN(内容分发网络),形成了一套完整的分布式云管理体系和架构实践,而这些技术能力都会毫无保留地提供给客户。”
云原生三大件的推出,对火山引擎意味着什么?对此,「甲子光年」采访了火山引擎云原生平台负责人沈健,来揭开火山引擎的云原生实践。
1.最早的云原生用户
云原生的概念提出已有十年之久。和云计算相比,云原生更讲究云平台的弹性,从生到长,都在云端。
2020年9月16日,一家专为企业提供云原生数据仓库的公司——美国Snowflake在纽交所上市,市值超300亿美元,创造了史上规模最大的软件业募资案例。云原生的价值,在那时候被推到巅峰。
今天,云原生已经成为确定性的趋势。IDC预测2024年,新的工作负载中60%是云原生工作负载,而2020年这一数字仅为10%。
国内各大云厂商的云原生产品开始百花竞放。相比其他云厂商,火山引擎虽然进入云市场较晚,但字节跳动内部的云原生实践却一点儿也不晚。
2016年,在成立第四年后,今日头条累计激活用户数超5500万,月活跃人数超1.3亿。外在看是激增的用户数据、饱受追捧的人气,但对字节跳动内部来说,增长本身就是公司要跨过的第一道门槛:
当单表超过5000万条数据时,传统的数据库和集群已经不能很好地支撑业务需求,有的甚至开始频繁宕机。开发速度既赶不上业务进度,也跟不上用户的诉求。
阵痛之下,字节跳动首次将云原生作为突破的解决办法,在2016年启动云引擎(TCE,Toutiao Cloud Engine)建设,以Kubernetes(谷歌开源的容器编排引擎)作为底层容器编排引擎,以此来提高业务的迭代效率。
在云原生发展趋势下,字节跳动从2018年开始逐渐将核心业务迁移到容器平台上,随后在离线、在线业务全部容器化的基础上,开始进行在离线混部调度设计和存储的云原生化。全部云原生化后,这套系统,包括底层调度能力、存储、中间件、计算引擎,就能在各种Kubernetes集群上整合并拉起来。
目前,字节跳动基础架构的重点建设领域是基于联邦化的多集群资源的统一管理和统一调度。比如,让北京的机房、上海的机房通过“联邦”的方式实现纳管,来让整体的资源利用率更高,也方便做各种各样跨云的调配和牵引。
从2013年提出发展到今天,云原生概念本身也在随着业务的发展而泛化。字节跳动把和云原生相近的技术体系分成了DevOps、Cloud Native以及Serverless三代,DevOps更多强调管理和运维的自动化,Cloud Native以微服务模式为主,Serverless(无服务器)则让开发者以函数或者极度简化的微服务代码来表达自身的业务逻辑。
作为“敏捷迭代”的互联网公司,字节跳动对云原生这样的新技术的敏感度与接受度在行业内处于第一梯队。放眼整个市场来看,虽然云原生概念的普及程度已经很高,云厂商不再需要做太多市场教育的工作,但云原生的渗透率并不算高。
火山引擎云原生平台负责人沈健告诉「甲子光年」:“早期使用云原生技术的公司,更多还是集中在互联网和金融等领域,还有大量的企业仍在观望,并未真正进入云原生,这是一个发展的过程。”
而这也是火山引擎进入云市场的机会。
2.当下的云原生机会
2022年,火山引擎内部发起了一项调研,对全国4000多家云消耗超过100万元的企业摸底,最后出来的数字超出预期:企业使用多云架构的比例达到88%,创造新高。
多云是指使用多厂商的云平台来运行应用程序,从而享受各云平台带来的不同特性,这为企业提供了更多的选择权:为了资源成本的优势,我选a云;为了稳定性的优势,我选b云;为了硬件优势,我选c云。
另外一方面,根据麦肯锡的报告,到2025年依然会有42%的企业保留有私有云,有很大一部分企业需要兼容私有云和公有云这样的架构。在负载的分布层面,边缘云的占比正在逐年的上升,根据IDC的报告,2025年超过30%的数据需要通过边缘进行更实时的处理。
在此背景下,分布式云应运而生。
在业内看来,分布式云也是云服务发展到一定阶段的必然产物。具体来说,传统专有云、私有云、混合云的目标,是满足监管需求、资源的可控性、独占性以及本地业务的就近服务能力而推出的。但在实际建设中,这种云基础设施建设多以项目制为主,周期长、标准化程度低、重复建设,建成之后还要被动地找公有云打通。
火山引擎总裁谭待分析:“造成这些现象背后的原因是多元的,有出于业务发展的考量,有基于成本管控的考虑,也有针对数据安全和监管的考量。但是对于企业来说,必须要有能力能够解决好这一分布式云、分布式多云体系所给企业IT带来的挑战。”
那么如何建设好分布式的多云体系呢?
字节跳动从自身出发,在成立十多年的时间里,几乎用过世界上所有的公有云服务和绝大多数的边缘云服务,因此形成了一套完整的分布式云管理体系和架构实践。其中针对“怎么让多朵云不沦为众多分裂的单朵云,怎么不被单朵云捆绑”这两个痛点需求,开展了火山引擎分布式云平台的研发。
这里面主要解决三个关键的问题:
第一,是企业从单一的公有云架构升级到多公有云架构,需要满足降本增效。
第二,是从传统的私有云架构向混合云架构进行升级,这样既能够保障数据的安全,又能够享受公有云所带来的弹性好处。
第三,是要基于数据,基于计算、靠近数据的理念去形成覆盖从1到40毫秒不同延时的架构体系,具体可以包括现场边缘、近场边缘和云边缘的体系化架构。
在火山引擎的这套分布式云平台上,不论企业的应用是构建在火山的公有云上,在第三方的公有云上,在自己IDC(数据中心) 的私有云上,还是在边缘云上,都可以实现集群资源与权限的统一管理,实施应用跨集群的分发和故障迁移,达到跨云的一致性体验。
4月18日,火山引擎分布式云原生平台(Distributed Cloud Native Platform,DCP)正式对外发布,定位为面向多云多Kubernetes集群场景的企业级云原生统一管理平台,能为企业提供多云集群统一管理与运维、应用跨集群分发、统一流量管控等能力,为用户打造无处不在的云原生一致体验。
据沈健透露:“现在字节95%的业务已经迁移至云原生平台,其中分布式云平台管理的节点已达21w+,涉及的核达1600w+,且有超过8w+应用以及各类服务运行其上,体系内部已经规模化验证。”
规模化并不是一件简单的事情。字节跳动目前有超过10万个在线服务,在线集群中有超过一千万的 Pod,这些服务每天都有超过2万次的变更。平均来看,字节的业务系统每五天就会更新一遍。为了处理数据报表和机器学习训练,每天有超过1.5亿件的离线任务需要处理,涉及的存储资源达数十EB。沈健表示:“规模一大,小概率事件就多了,那么对于稳定性、可靠性的要求也多了。火山引擎在这个过程中,解决了大量底层软件的问题。”火山引擎的云原生产品秉承着开放共享的理念,一出生就是长在开源上,无论是HDFS、Kafka、YARN,还是Spark、Flink,都承载着巨大的用户体量。即使这套协议有时候没那么规范,也要继承下来。为此,火山引擎做了非常多的重写、定制化工作,付出了非常大的工程力量来提升整体性能。虽然用户可能用起来跟原来的接口差不多,但是实际上底下已经发生了翻天覆地的变化。沈健表示:“对于用户而言,能够与主流开发生态无缝衔接,认知与适配等各种技术成本更低,同时火山引擎也能让用户拥有可适配定制部分的自主选择权。”
3.如何做好云原生产品?
“字节同款”,是火山引擎的核心优势之一,但从技术走向标准化的产品,火山引擎一方面对内要做大量的实际优化工具,另一方面,云服务的市场环境也一直在变。与前两年的炙手可热相比,2022年,全球科技行业的寒冬波及到了云服务行业:
阿里云虽然实现了13年来的首次财年盈利,但市场规模的扩张却陷入了瓶颈——一季度营收增速降至12%,创出历史新低,三季度更是只有同比4%的增长。 腾讯云的2022也同样难熬,受到云业务的拖累,金融科技与企业服务板块的收入增速从30%骤降至4.6%,市场份额也被后来者华为云反超,沦为第三。究其根本,还是因为内外部环境的变化,疫情下的云办公形式,加速企业迫切上云;但是,受宏观因素的影响,企业又格外重视用云的“投产比”。这在无形中,对云厂商提出了更高一层的要求:如何既能满足企业的需求,又能让企业觉得上云这件事的投资回报率很高呢?火山引擎作为后来者,给出的答案是:用技术驱动性价比。沈健表示:“在规模很大的前提下,即使是1%的浪费,也是很多钱。火山引擎把资源的利用率压榨到了极致。”在敏捷迭代层面,从2019年开始就,字节跳动针对其超大规模流量、波峰波谷明显的业务场景,构建了自研的、基于 Kubernetes 的 Serverless计算引擎架构。在Serverless架构下,开发者只需编写代码并上传,云平台就会自动准备好相应的计算资源,完成运算并输出结果,从而大幅简化开发运维过程。业内有人把Serverless的演进过程比喻为“炒菜”:以前,企业为了炒菜,需要自己建个厨房,自己买锅碗瓢盆、油盐酱醋,自己亲自炒菜。后来,有了云计算,企业可以租个厨房,租工具,再炒菜。现在,有了Serverless平台,企业不用在意厨房(计算环境)在哪里,只需要负责提供食材(企业庞杂的数据),云公司自然会把菜炒好,企业也能快速有效地得到运算结果。目前,Serverless技术已被用于几乎所有字节跳动旗下的产品和业务。无论是每日海量评论处理、各类用户增长活动,还是抖音电商818大促、卡塔尔世界杯直播、春节活动,Serverless架构帮助各业务在无需关心资源的情况下快速迭代,在流量洪峰中自动扩容稳定运转,在流量波谷时自动缩容,最大程度使用及释放计算资源。截至2023年4月,字节跳动在Serverless架构之上单日发布1.5w次,每日调用峰值1.4亿,弹性资源日平均利用率 40%,成为了全球规模最大的Serverless计算架构之一。基于在企业内部大量的场景验证,火山引擎新推出的函数服务(Volcano Engine Function as a Service,veFaaS)产品,定位事件驱动的无服务器函数托管计算平台。它最大的好处,是能支持快速创建和部署函数,按需集成云上中间件和数据库产品,屏蔽底层资源和运维细节,弹性高可靠地运行业务,帮助企业极致缩减开发运维成本,享受云计算优势。沈健告诉「甲子光年」:“针对抖音评论流处理、电商交易订单同步、中台类对账系统、低代码平台支撑等应用,通过veFaaS函数服务,百毫秒级别就可以拿到对应的结果。”火山引擎veFaaS架构图另一款产品,流式计算Flink,则支撑了字节跳动业务实时化的特点。流式计算是一种高频、增量、实时的数据处理模式,这种模式的好处是能更快地获得反馈。让整个推荐的准确性、快速的决策变得更加实时有效。“很多广告的在线训练,以及电商的实时数仓类的一些东西,都是基于Flink的这套的方案,因为出结果更快,更容易拿到对应的一些效果反馈。”沈健说道。目前,基于流式计算 Flink 构建的实时业务场景已经涉及到字节几乎所有的业务和产品,包括实时数仓、实时风控、商业化、电商、游戏、小说、教育、房产、财经等,日常实时峰值超100亿QPS。火山引擎Flink架构图分布式云原生平台、veFaaS函数服务、流式计算Flink三样产品,是火山引擎云原生最新打出的一套“组合拳”:这三样产品可以灵活地相互适配,支撑不同阶段、不同类型用户的实际诉求。这么来看,火山引擎的路径总是先自己内部大量验证,再向外发布,把选择权留给用户,从而达到开放共享的理念,颇有靠谱的主播带货,带的都是自用好物的味道。技术够硬,资源够多,才能在价格层面上拥有更大的话语权。
4.夯实云原生,深入云服务
今天,火山引擎云原生三大产品的发布,意味着火山引擎在云基础产品线的进一步完善,逐渐缩小与主流云厂商的差距。沈健告诉「甲子光年」:“今天火山引擎的产品,无论是数据智能、机器学习还是云基础产品,已经配备了绝大多数的能力,基本能够满足客户的完整功能需求。不过,我们还有一些计划之中的产品还没有推出,后续会随着客户的云原生化、Serverless化的深度发展逐步对外开放。字节跳动在云原生领域走得靠前,内部也会有新的产品不断孵化,这些能力将会逐步标准化,并通过火山引擎对外输出。”沈健透露,现在火山引擎的Serverless仍然在单点产品的范围内,接下来还会推出无缝过渡的工具类产品,逐步实现端到端的Serverless。在未来两三年之内,对于新应用大家的选择可能都会偏向Serverless。此前,火山引擎的IaaS产品要比PaaS、SaaS晚半年发布,但实际上这只是火山引擎的产品发布顺序。在实际的研发节奏上,火山引擎IaaS产品的布局并不比SaaS更晚。沈健透露,火山引擎云原生基础产品的技术积累已经有近7年,将技术标准化与产品化的打磨建设也已经做了3年多。今天,火山引擎的云原生基础产品已经被外部客户广泛应用。比如在AI制药领域,火山引擎合作了行业内的龙头企业—晶泰科技。作为多云架构的使用者,晶泰科技的应用挑战较大,单个镜像超过20G,500+节点需要在短时间内拉起,同时在算力供给上对性价比要求很高。火山引擎为晶泰科技搭建了云原生基础设施,通过镜像预热、镜像缓存、P2P传输等功能,实现超大镜像秒级加载,以及实现了数百节点分钟级自动扩缩容。同时,通过混合调度、准预留实例等措施,提供高性价比算力资源。目前,火山引擎已有数千家标杆客户,涵盖手机、金融、汽车等多个领域。火山引擎的一个策略是:扎根细分领域,找到行业里标杆的客户,与之进行深度的共创。“因为最重要的是形成一套这个行业独有的、加上互联网数字化以后的体系,它不是一个可以直接把比如抖音的经验照抄过去的东西,所以第一步一定是找到行业里面的客户来进行共创。”谭待说道。事实上,走向细分领域,也是火山引擎在当下的最好打法之一。毕竟国内公有云市场头部效应显著,2022年第一季度,中国公有云市场份额中前四名厂商占据了78.8%。IDC预计,公有云市场未来继续保持快速增长。《中国公有云服务市场(2021下半年)跟踪》报告显示,未来5年,中国公有云市场会以复合增长率30.9%继续高速增长,预计到2026年,市场规模将达到1057.6亿美元,中国公有云服务市场的全球占比将从2021年的6.7%提升为9.9%。在这条赛道上,字节跳动立足做一个长期玩家,不求一城一池的得失,更在意强大自身积累之后的业务价值。火山引擎总裁谭待曾表示:“我们不求快,走得稳比走得快更适合火山引擎。”END.受微信改版影响,没有标星的朋友可能会错过「甲子光年」的推送或是看不到封面,欢迎各位新老朋友给「甲子光年」点个星标⭐️,以便及时收到我们的每篇新推文。