智东西(公众号:zhidxcom)
作者 | 三北
编辑 | 漠影
近年来,我们可以观察到视频正在逐渐渗透到各行各业,从互联网领域延伸至其他行业。原本仅仅是一项功能的视频,如今已经转变为驱动企业用户增长、提高业务效率以及实现商业价值的重要工具。同时,视频也在改变着营销、知识、商业和空间之间的互动体验。
我们的生产生活越来越离不开视频,视频云也被赋予了重要的使命。
视频云,顾名思义,涵盖了视频生产、处理、分析和消费的全链路技术能力。自移动互联网发展以来,这个产业一直在不断壮大,成为云计算领域的主旋律。
在当今这个AI、VR/AR等科技飞速发展的时代,云计算行业正逐渐将这些新兴技术与视频云进行深度融合,以此为基础,正在塑造体验创新的新里程碑。
8 月 22 日,字节跳动旗下的火山引擎举办了一场视频云 &AIGC 技术大会,首次公布其视频云产品与爆火的 AIGC(生成式 AI)领域的重磅成果,覆盖芯片、框架及方案各个方面,面向全行业视频化时代交出一份 ” 新答卷 “。
在视频化的浪潮中,我们面临着诸多的机遇与挑战。其中,最为关键的技术无疑就是人工智能(AI)以及虚拟现实(VR)和增强现实(XR)等。这些技术正在深刻地改变着视频云技术的未来发展走向。首先,AI技术的引入使得视频分析、处理和推荐更加精准和智能,极大地提升了视频云服务的用户体验。同时,VR和XR技术的应用,则让视频云有了更广阔的应用场景,比如在教育、医疗、旅游等领域的应用,都为视频云技术的发展注入了新的活力。其次,随着行业的不断渗透和视频化应用的融合,视频云技术也在不断升级和发展。在这个过程中,火山引擎视频云以其强大的技术实力和丰富的行业经验,展现出了卓越的布局能力。综上所述,我们可以看到,视频化时代给我们的生活带来了前所未有的机遇,同时也带来了一系列的挑战。而AI、VR和XR等技术,以及行业渗透和视频化应用的融合,都在推动视频云技术向更高质量、更高效能的方向发展。在这个过程中,火山引擎视频云以其卓越的表现,无疑将成为推动这一变革的重要力量。
对话火山引擎视频云负责人 Yongyuan,我们对此进行了深入探讨。
一、从传统到 AI,视频云要飞跃三道技术新边界
进入全行业视频化时代,算力、体验和交互层都面临 ” 新边界 “。Yongyuan 谈到他的洞察:
第一是算力边界。视频数据体量激增,分辨率和清晰度持续提升,算力瓶颈是当前视频行业面临的最大挑战。
第二是体验边界。用户持续追求更清晰、更流畅的极致体验,处理的算法和流程要跳出现有框架探索体验边界。
第三是交互边界。沉浸式媒体方向在持续加温,苹果发布的 Vision Pro 带来了新憧憬,2D 画面的边界向 3D 画面突破。
为了探索这三个边界,火山引擎已经采取了一系列探索和实践。
1、探索算力边界,火山引擎推出两 ” 芯 “
在我们深入探讨之前,让我们先来关注一些关键数据。据Yongyuan透露,视频所需的算力远高于图片和文字,甚至达到了数百倍乃至数千倍的数量级。这种巨大的计算需求无疑给我们的工作带来了极大的挑战。为了应对这一系列挑战,我国的火山引擎团队积极研发了一系列底层硬件技术,以满足不断增长的算力需求。
8 月 22 日,火山引擎自研视频编解码芯片、自研 ARM 阵列服务器等技术首次公开,揭开了火山引擎视频云的底座基石。基于抖音的大规模应用实践和打磨,火山引擎实现了从通用计算到异构计算的跃进,沉淀了可为不同视频场景提供专用且适用的算力支持。
据称其自研视频编解码芯片相对主流硬件编码器能提升超 30% 的压缩效率,一台芯片服务器的转码能力,相当于百台 CPU 服务器的算力,可用于视频点播、视频直播、VR 点 / 直播、图片转码等多个场景。
▲自研视频编解码芯片成果
Yongyuan表示,这款芯片融合了字节跳动整套贴合业务的优秀编解码及前端处理技术,这使得其在效果与效率方面都取得了显著的提升。
火山引擎视频云不仅研发了ARM阵列服务器,更是在转码领域和云游戏市场展现出了卓越的性能。据悉,该服务器相较于x86架构能够实现超过40%的成本节约,而在与同类型服务器的对比中,更是展现出了极高的性价比。此外,通过运用云原生技术来管理 and 调度ARM异构阵列服务器,成功实现了存储和计算的分离,从而确保了用户数据的安全性。
2、探索体验边界,火山引擎全面布局 AIGC
AIGC正投身于视频领域,全面颠覆了音视频产业的运作模式。据Yongyuan透露,AIGC技术作为一种创新的视频内容创作手段,将极大地提高内容生产效率、丰富内容和个性化程度。
可以看到,在抖音等短视频平台上,很多人已经习惯了使用各种智能特效进行创作,也更频繁地看到虚拟数字人直播卖货等内容,AI 已经融入到了人们的视频体验中。而为了让更多人能用上这些前沿技术,字节正通过火山引擎为外部提供技术服务。火山引擎此前推出的智能创作云,就支持了更多企业进行智能化内容创作。
火山引擎智能创作云是一款专注于企业内容生产的AI赋能平台,它为企业提供了丰富的AI创作工具、先进的编辑技术、可靠的正版素材以及高效的流程管理。当前,该平台已成功研发并推出了AIGC脚本撰写、文生图生成、批量海报制作、数字人分身等众多强大功能。总的来说,火山引擎智能创作云以其卓越的AI技术和全面的功能体系,成为了企业内容创作的得力助手。
不同于个人创作,企业视频创作面临创意缺乏、工具难用、协作困难、难以持续等更复杂的挑战,智能创作云则从创意策划、视频制作、内容发布到数据回馈,从每一个环节降低内容创作者的创作门槛。比如,国内知名房屋租赁服务公司自如就借助火山引擎智能创作云,通过 ” 剪同款 “API 能力,批量制作房源介绍视频,引导用户点击 VR 看房,从而增加了房源曝光率。
AI 能力不仅改变了视频内容生产的方式,还为视频处理提供了更多可能。AI 影片修复是一个典型代表场景。就在 8 月 16 日,火山引擎、抖音联合中国电影资料馆宣布将对 100 部香港经典老电影进行 4K 修复。这是其首次将 AIGC 视觉大模型应用于老片修复中,在观影活动中得到了一致好评。
▲修复前(左),修复后(右)
追溯其背后技术,本次修复师基于 AIGC 大模型完成,这相比传统的影片修复有什么不同?
Yongyuan 告诉智东西,相比于传统的去噪、插帧等算法以及先前的 AI 技术,火山引擎采用的 AIGC 视觉模型是关键差异点。借助其强大的生成能力和丰富的先验知识,实现修复效果在清晰度、色彩、流畅度和瑕疵消除等方面的全方位提升。针对老片修复场景,火山引擎对 AIGC 视觉大模型进行了生成质量、视频任务和效率方面的算法优化,让视觉大模型能够在视频场景下更加稳定、优质、高效地输出内容。
实际上,火山引擎视频云的很多产品能力都有 AI 技术的加持,例如” 智能转档 “使用了 AI 重采样方案,满足了高质量多码率分发需求,支持直播、点播多档位画质提升。 ” 极智超清 “是基于人眼的主观感受最优为基准的 AI 前处理方案,该方案不仅可以提升主观画质,还可以进一步实现整体带宽降低 15-35%。
3、探索交互边界,基于 PICO 打造 VR 直播等应用
在探索交互边界方面,火山引擎视频云基于在字节跳动旗下 VR 品牌 PICO 上的实践和探索,沉淀了很多优质的能力。
比如,火山引擎的 VR 360 ° 全景图像技术在今年 CVPR Workshop 举办的一项比赛中,双目超分双三次插值保真赛道和 360 ° 全景图像超分赛道上,荣获了双料冠军,技术能力达到行业领先水平。本次火山引擎还推出了 8K 360 度 VR 直播云制播解决方案,据称能大大降低 VR 内容的开发和消费门槛。
可以看到,从通用算力到异构算力、从传统到 AI、从二维到三维,视频行业已被新技术掀起阵阵新浪潮,而火山引擎已经加速布局。
二、从互联网到传统行业,让视频成为企业的增长引擎
技术的价值体现在实战落地应用。面向视频化全行业渗透的趋势,火山引擎已经将其视频云从游戏、电商、社交等消费互联网领域向医疗、金融、教育、汽车等行业互联网延伸。
本次,火山引擎重磅推出了一系列行业解决方案,覆盖互动娱乐、在线教育、金融合规、智能驾驶等场景。
首先,这些方案大多将技术与场景深入结合,带来了更有沉浸感、交互感的视频体验。
以互动娱乐行业为例,在与抖音多人合唱项目合作中,火山引擎视频云行业首发「多人视频一起唱方案」,把合唱互动方案从双人升级到多人,现在已经可以达到九人合唱;并实现了 36ms 超低延时合拍,支持 48kHZ 采样率,满足 K 歌场景的听感盛宴;同时集成 25W+ 高品质曲库,助力用户实现了随时随地与朋友一起想唱就唱,感受最鲜活多样的音乐魅力。
此外,火山引擎还推出了弹幕互动方案,这是一种直播平台兴起的弹幕互动玩法,允许观众通过发送点赞、弹幕和礼物来参与并影响互动内容。火山引擎视频云行业首推云游戏 +RTC(实时音视频)弹幕互动方案,融合云游戏服务的强大底层算力以及 RTC 先进架构设计和音视频能力,独家支持 RTC+ 云游戏云端合流功能,能解决多源音视频流管理和同步问题。
▲弹幕互动应用界面
同时,火山引擎的 AIGC 能力也被嵌入这些方案之中,为企业带来全新的视频生产体验。
比如面向金融领域,在火山引擎与国信证券联合落地的金融直播解决方案中,国信证券上线了 AI 虚拟数字主播,并结合数字人使用 AI 短视频模板自动化生成实时短视频。金融行业智能直播面临合规性挑战,AI 生成内容需要逐帧做合规审核,国信证券正探索通过 AIGC 做初审再采用人工复审,从而提升内容创作和审核效率。
此外值得一提的是,从 2D 到 3D 视觉的交互升级,在这些行业方案中亦有多处体现。
火山引擎行业首推的 VR 云制播方案,从内容生产到传输分发降低 VR 内容的开发和消费门槛。比如在其与央视打造身临其境的虚拟演播平台案例中,央视通过火山引擎视频云和云创智媒的能力,轻量化地用一台笔记本实现 VR 视频的制作,而不再需要一个演播室和一堆硬件系统。
可见,除了在抖音熟悉的互联网领域,火山引擎在金融、传媒、汽车等领域不断探索并且推出相应方案,探索视频云 ” 三道技术边界 ” 并不是说说而已,而是已经有了深入实战经验。
三、三年商业化深耕,火山引擎视频云 ” 破茧 “
火山引擎自 2020 年正式对外商业化,但视频技术服务可追溯到 2013 年。
Yongyuan 回顾,自 2013 年今日头条平台的短视频内容诞生,团队就开始做视频方面积累。2016 年抖音的孵化,则促使团队进一步以视频中台的方式输出更多音视频技术支持。随着 2017~2020 年抖音规模不断变大,更多音视频的标准化工具出现,逐步具备了对外服务的条件。
2021 年 6 月,字节正式推出火山引擎云服务业务板块;12 月,火山引擎发布了包括了视频云在内的五大类共 78 项云服务,确立 “IaaS+PaaS+SaaS” 完整云服务体系。2022 年 7 月,火山引擎推出音视频云端一体解决方案 veVOS,进一步助力企业客户的业务敏捷创新。
2023 年,随着火山引擎的商业化落地进入规模化阶段,其底层技术也加速迭代,这些自研芯片及服务器等技术并不对外销售,而是通过视频云的方式服务企业。” 我们的核心技术都会沉淀在火山引擎,以‘对内对外统一’的方式提供,这是火山引擎做云的一个出发点。”Yongyuan 说。
随着技术和商业地图的进一步完善,火山引擎正大步驶向视频云领域的新蓝海。
结语:全行业视频化浪潮下,视频云成企业增长新引擎
知名调查机构 IDC 预测,到 2025 年,超 80% 全球数据将是音视频等非结构化数据,这样的超视频化成为数字时代的重要特征。同时,AIGC、VR 等技术的爆发,带来视频生产的成本不断降低,可能将视频行业市场撑大十倍都不止。
本次,火山引擎推出了一系列底层硬件及产品和行业解决方案,在视频云领域的布局进一步加深。从传统到 AI,从 2D 到 3D,从泛互联网到行业,火山引擎在拓宽自身云业务发展边界的同时,也为企业提供了通过视频及 AI 技术实现数字化升级的新选择。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!