近日,CVPR Workshop 下属的 NTIRE2023大赛公布比赛结果,在双目超分双三次插值保真赛道和 360° 全景图像超分赛道上,火山引擎多媒体实验室凭借自主研发的算法获得了双料冠军,技术能力达到行业领先水平。
NTIRE(New Trends in Image Restoration and Enhancement)是新兴的计算机视觉国际竞赛,每年在模式识别和机器视觉顶级国际会议 CVPR(CCF-A)上举行。该比赛旨在鼓励学者和研究人员探索计算机视觉中图像恢复和提升的新技术和方法,并且促进学术交流,在计算机视觉领域获得了广泛的关注和参与,吸引了众多高校和业界知名公司参加。
双目超分比赛结果
360°全景图像超分比赛结果
双目超分(双三次插值保真)赛道:自研 HTCN 网络,显著提升立体视觉图像分辨效果
随着双目成像技术的发展,移动电话、虚拟现实、自动驾驶和机器人中的双目相机应用越来越受欢迎,高分辨率双目图像包含更多的纹理细节,具有更好的主观视觉效果,且可以提升下游任务性能, 因此立体视觉引起了学术界和工业界的越来越多的关注。双目图像超分的简单直接方式是将单图超分辨率算法分别应用于左右视角图像,但是这样会忽略双目图像左右视角之间的信息关联–左右视角图像可以在超分过程中利用左右视角间的互补信息互为参考,同时也为双目图像超分提供额外的先验约束。因此合理利用左右视角间的互补信息对提升双目图像超分性能至关重要。
本次竞赛双目超分双三次插值保真赛道旨在为双目图像SR建立一个利用双三次插值下采样的基准,并且利用最后的保真指标作为评价指标,为研究人员提供了一个共同分享他们的知识和见解的机会,推进算法性能的提高,促进立体图像超分辩技术的发展。
在图像恢复任务中,经常采用多阶段的处理策略。虽然基于 Transformer 的方法在单图像超分辨率任务中表现出高效率,但在立体超分辨率任务中还没有展现出比基于 CNN 的方法更显著的优势。这可以归因于两个关键因素:首先,当前的单图像超分辨率 Transformer 在处理过程中无法利用补充的立体信息;其次,Transformer 的性能通常依赖于充分的数据,而在常见的立体图像超分辨率任务中缺乏足够的数据。为了解决这些问题,团队提出了一种混合 Transformer 和 CNN 注意力网络(HTCAN),它利用基于 Transformer 的网络进行单图像增强和基于 CNN 的网络进行立体信息融合。此外,团队采用了 multi-patch 训练策略和更大的窗口尺寸,以扩大感知域。团队还重新审视了其他高级技术,如数据增强、数据合成和模型合成,以减少过拟合和数据偏差,最终超过其他竞争对手,获得第一名的成绩。
论文链接:https://arxiv.org/pdf/2305.05177.pdf
整体双目超分策略
360° 全景图像超分赛道:两阶段框架提升全方位视角图像分辨率
360° 全景图像是一种能够呈现全方位视角的图像,能够提供更加沉浸式和交互式的体验,因此在 VR/AR 应用中得到了广泛的应用。然而,由于采用的鱼眼镜头等原因,360° 全景图像的分辨率较低,影响了图像的清晰度和细节。因此,如何提高 360° 全景图像的分辨率成为了一个重要的研究方向。
超分辨率是一种图像处理技术,旨在通过从低分辨率图像中恢复高分辨率图像的细节信息来提高图像的分辨率。在 360° 全景图像中,超分辨率技术可以通过从低分辨率的全景图像中恢复缺失的高频信息来提高图像的清晰度和细节,从而提高用户的体验。
在此次竞赛中,团队提出了一种 360° 全景图像超分辨率的两阶段框架。第一阶段采用了两个分支:Model A,它包含全景位置感知可变形块(OPDB)和傅里叶上采样;Model B 在模型 A 的基础上增加了空间频率融合模块(SFF)。Model A 旨在增强 360° 图像位置信息的特征提取能力,而 Model B 进一步关注 360° 图像的高频信息。第二阶段基于 Model A 的结构进行 360° 图像的同分辨率增强。此外,团队从公开数据集收集球面数据并使用退化网络生成伪低分辨率图像,以提高 Transformer 的拟合能力。团队提出的方法取得了卓越的性能,并赢得了 NTIRE 2023 360° 全景图像超分辨率挑战赛的冠军。
论文链接:https://arxiv.org/pdf/2304.13471.pdf
整体球面超分策略
Model A 和 Model B 的网络结构
火山引擎多媒体实验室在双目超分双三次插值保真和 360° 全景图像超分领域实现了突破性的进展,并获得了双赛道冠军。两项技术方案可以帮助广大用户在多样化的复杂场景中获得更为清晰、精细的图像展现效果,有助于推动视频行业向着更加智能化、高效化的方向发展。其中,360° 全景图像超分技术已在幸福里 app 落地应用,并通过火山引擎 veImageX 产品面向企业开放。
火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。
火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。
加入我们
字节跳动视频架构是字节跳动的视频中台部门,支持字节跳动旗下产品的点播、直播、实时通信、图片、多媒体业务发展,目标成为业界多媒体解决方案领先者,构建极致的视频技术/产品服务体验。
目前,视频架构团队已通过字节跳动旗下的火山引擎向企业开放技术能力和服务。
火山引擎 联系方式
业务咨询:service@volcengine.com市场合作:marketing@volcengine.com电话:400-850-0030
加入我们,让我们一起做多媒体领域的领军者!视频编解码算法工程师-多媒体实验室(北京/上海/杭州/深圳职位开放)
https://jobs.bytedance.com/referral/pc/position/detail/?token=MTsxNjgzNjI1NzgwNzc0OzY4MTYwOTE1NDQ5ODcyMjM1NjU7NjkxMTU2NTQyNjQ3Mjc0OTMyNg