文章主题:新云·共未来, 云产品发布会, 火山引擎, 分论坛
在12月2日的「新云·共未来」云产品发布会上,火山引擎举办了一场盛大的活动,并组织了五场分论坛,分别是:云基础分论坛「云之基石」、「预见趋“视”」视频云分论坛、数据分论坛「数智引擎」以及云体验分论坛「智享盛宴」和生态分论坛「共创生态」。这五个分论坛从各个方面对火山引擎的云计算产品进行了深入的解析,包括产品介绍、技术实施、客户故事、行业见解和生态建设等。特别是「数智引擎」分论坛,它从数据产品、技术实践和解决方案等多个角度,全面向观众展现了火山引擎的数据平台产品。
导语
在近些年,我们观察到越来越多的企业开始将数字化转型视为重要战略,而数据,作为企业核心资产之一,其在未来业务发展中的作用日益突出。2021年12月2日,在一场云产品发布会上,火山引擎正式推出了一系列基于字节跳动最佳实践的云上数据产品。这些产品覆盖了从端到端的数据链路,包括智能应用、数据中台以及计算引擎等多个领域。
字节跳动数据平台产品发展历史
火山引擎数据平台产品“始于应用,致力增长”。
在2012年至2014年间,字节跳动成功推出了首款数据产品DataTester。作为一款A/B测试工具,DataTester的推出标志着A/B测试在字节内部的应用取得了 initialize 的成果,同时也种下了数据驱动理念的种子,这为字节跳动后续的发展奠定了坚实的基础。
在2015年至2016年间,随着数据规模的不断扩大,为了更有效地处理和优化堡垒数据,确保数据质量的提升,字节跳动正式推出了数据研发治理套件产品。这一举措不仅有助于提高数据处理效率,也为公司提供了更加稳定且可靠的数据支持。
自2017年以来,字节跳动不断推出众多APP产品,为这些APP提供有力支持。为了更有效地满足需求,字节跳动在研发方面进行了两方面的努力:首先,自研了OLAP场景下数据库产品ByteHouse,以提升数据处理能力;其次,推出了增长分析产品DataFinder,帮助分析用户行为和数据趋势。此外,字节跳动还将埋点系统产品化,以便于更好地进行埋点和管理。
在2018年,抖音、今日头条、西瓜视频等各个产品对于内容分析的需求日益旺盛。为了满足这种需求,人们开始关注各种风险指标的查看,并且希望业务人员能够以更加简便、灵活的方式对数据进行自主分析。因此,我们推出了名为“ABI”的智能数据洞察产品,该产品能够帮助用户深入挖掘数据的价值,从而更好地支持业务决策。
为推动多个业务场景与数据产品的有效应用,字节跳动实施了一次组织创新,即启动了数据BP模式。这一模式旨在为各个业务线条配备专属的数据BP人员,从而更好地满足业务需求。这在字节跳动的数据平台发展历程中具有里程碑式的意义。
在2019年,随着精细化管理需求的日益显现,字节跳动采取了一系列行动来提升其客户标签和画像标签的管理能力。首先,该公司推出了客户数据平台,以便更有效地管理这些信息。其次,字节跳动着手构建数据湖仓产品,以满足不断增长的数据需求。此外,通过火山引擎,字节跳动还实现了内部产品的对外输出,从而将部分内部产品向外部用户开放,进一步扩大了其服务范围。
在2020年,随着数据体系的逐步成熟和业务领域的不断拓展,数据治理已逐渐成为字节跳动内部的需求焦点。为了满足这一需求,字节跳动不仅对数据治理产品进行了全面的优化升级,同时也提出了分布式自治的全新理念,旨在更为有效地赋能各项业务发展。
2021年,字节跳动全系列数据产品通过火山引擎对外开发,正式云上输出。
9年间,字节跳动数据驱动增长的实践,沉淀出端到端全链路的数据解决方案,从数据源、数据集成、数据湖仓、数据加速层、数据应用,覆盖了数据全生命周期。一站式的数据治理体系以及全链路的数据开发体系,保证数据的质量、数据的安全和可靠。
火山引擎数据产品能力全景图
与传统建设数据体系的理念不一样,火山引擎的数据产品是应用驱动中台,自上而下推动数据体系的建设,而非先搭建好底座,再寻找业务场景。
从业务场景出发,推动数据应用层工具的建设,进而拉动数据中台、数据治理体系的沉淀,最终保证数据能够真正帮助到业务,而非自下而上建设很多数据,最终无法在实际的业务场景中发挥最大的价值。这是火山引擎数据产品的核心理念和建设节奏。
火山引擎数据产品能力主要分为三个层次:SaaS层、PaaS层、IaaS层。
SaaS层主要是数据应用产品,核心价值是让客户更好地使用数据,让数据在业务场景中发挥更大的价值。主要有A/B测试产品-DataTester、增长营销平台-GMP、增长分析产品-DataFinder、客户数据平台-CDP、数据智能洞察-ABI。PaaS层主要是火山引擎数据中台能力的体现,最大的价值在于提效数据开发、沉淀数据资产、落地数据治理体系,帮助数据建设更加体系化、流程化。主要有四个核心产品:大数据研发治理套件-DataLeap、极速OLAP引擎-ByteHouse、湖仓一体分析服务-LAS、开源Hadoop生态企业级大数据分析系统-EMR。IaaS层主要是火山引擎的云基础产品,依赖云基础产品提供的存储、计算、网络等能力,火山引擎的数据产品和服务得以构建。
重点产品
Serverlees湖仓一体分析服务-LAS
如何将湖和仓的数据融合在一起做更多分析?两三年前,字节跳动内部结合业务场景做了很多尝试,最终沉淀出LAS这样的产品。其核心能力是将湖和仓的数据做联合分析,并基于湖仓体系构建更上层的数据体系。
Serverlees湖仓一体分析服务LAS具有以下几个特点:
统一SQL接口。产品里面集成的兼容开源生态、大数据处理引擎,这些引擎都有SQL能力,SQL语言上有比较大的差异,对数据开发人员有门槛和成本,基于两类引擎写SQL要做一些适配和测试才能保证运行一致。火山引擎LAS统一了SQL层,屏蔽了下面引擎的差异,保证了SQL灵活运行在不同的引擎上面,极大了降低了基于智能引擎开发的效率。智能引擎选择。针对不同场景,LAS提供智能引擎选择,帮助客户更灵活地选择引擎,降低开发门槛。流处理很多时候采用消息队列Kafka,批处理采用HDFS,很多时候数据处理存储了两份,一方面存储层面有冗余,另一方面如何保证两份数据的一致性,需要比较大的成本,有时候需要反复覆盖校验。针对这一痛点,LAS设计了统一的数据存储格式,保证批处理和流处理基于一套存储格式都可以访问,极大简化了架构,节约成本。
开源Hadoop生态的企业级大数据分析服务-EMR
很多客户都基于Hadoop构建大数据生态体系,EMR产品的核心是兼容开源Hadoop生态的能力。
火山引擎的EMR集成了常见的开源组件,比如Apache Spark,Flink,Hive、Presto等,保证开源的强兼容。同时EMR简单易用,用户可以方便地创建一个集群,包括自动化运维、监控等。在这个点上火山引擎做了大量的投入,核心价值是让大数据开发层的人把更多的精力集中在大数据开发本身,而不是大数据软件管理上。
极速OLAP引擎-ByteHouse
ByteHouse的核心定位是帮助客户更灵活、便捷地获取到数据。产品的主要亮点有:
低时延分析。区别于传统按天、小时的批量导入,数据时效得以提升。现在很多业务有实时分析的场景,要求当端上有一个行为发生时,后面的统计就可以实时看到对应指标的变化。PB级数据秒级查询。这是火山引擎做ByteHouse的初衷,随着数据分析的需求越来越强,我们需要提供更好的分析能力,帮助企业更灵活地探索数据。基于云原生架构,可以灵活部署,按需创建。基于OLAP早期部署的架构,ByteHouse可以帮助业务做到存储和计算资源的完全隔离。无厂商依赖。比较大的公有云厂商都提供这一能力,避免搬迁的数据成本。
大数据研发治理套件-DataLeap
DataLeap的核心价值是帮助客户提效数据开发,沉淀数据资产,落地数据治理体系。
数据开发中有两个点一直绕不开,一是如何提效数据开发。随着数据体系越来越复杂,数据诉求也越来越多。比如从最早收到数据开发的需求,到开发、测试、验证、上线,然后到后期运维,整个链路很长。DataLeap覆盖了整个数据开发的全链路,提供了数据监控等各种自动化的数据管控能力,帮助业务方把更多精力聚焦在数据开发逻辑、质量保证等方面,
二是如何提效数据治理的能力。数据治理是一个比较庞大的事情。当业务发展到一定程度,数据治理面临的问题第一是推动成本非常大,二是推动过程中对业务的侵入很大,很多数据规范流程一落地,显然对业务本身有很大影响。基于此火山引擎提出了分布式自治的理念,并落地到DataLeap的产品中去。
DataLeap提供一些数据治理的核心点,赋能业务方进行数据自治,工具层面可以帮助客户更快地识别出自己数据体系中的问题,比如核心指标SLA超了,存了大量长时间没有访问的数据,数据的脚本效率等需要关注事项。另外可以将整个指标规范标准沉淀到产品中去,只要使用DataLeap,数据体系规范自然就能建立起来。
支撑精细运营,助力业务增长;提效数据研发,完善链路保障;构建湖仓平台,加速数据分析。火山引擎的数据平台产品主要围绕这三个关键点去推进。未来,火山引擎将以数据价值为先,致力于构建敏捷的数智引擎,为企业提供更好的数据产品与服务。
点击「资料下载」,立即下载「火山引擎云产品发布会」相关资料!
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!