文章主题:CVPR, NTIRE, 双目超分, 360°全景图像
近期,第2023届CVPR Workshop旗下的NTIRE竞赛揭晓了获奖名单。在双目超分双三次插值保真赛道和360°全景图像超分赛道中,我国火山引擎多媒体实验室凭借其自主研发的先进算法,成功斩获双料冠军,展示了其在行业内的领先技术实力。
NTIRE(New Trends in Image Restoration and Enhancement)是一场新兴的计算机视觉国际竞赛,其独特之处在于每年都在模式识别和机器视觉领域的顶级国际会议CVPR(CCF-A)上举行。这个比赛的宗旨在于激励学者和研究人员去探索和开发计算机视觉领域中图像恢复和提升的新技术以及方法,从而推动学术交流的发展。由于其在计算机视觉领域的广泛影响力和吸引力,NTIRE已经成功吸引了大量的高校和业界知名公司参赛。
双目超分比赛结果
360°全景图像超分比赛结果
双目超分(双三次插值保真)赛道:自研HTCN网络,显著提升立体视觉图像分辨效果
双目成像技术的进步使得移动电话、虚拟现实、自动驾驶和机器人等领域的双目相机应用日益受到欢迎。高分辨率双目图像由于其丰富的纹理细节和出色的主观视觉效果,在提升下游任务性能方面展现出巨大潜力,这使得立体视觉成为了学术界和工业界关注的焦点。然而,双目图像超分的简单直接方法——将单图超分辨率算法应用于左右视角图像,却未能充分利用双目图像左右视角之间的信息关联。实际上,左右视角图像在超分过程中可以互相参考,为双目图像超分提供额外的先验约束。因此,如何合理利用左右视角间的互补信息以提升双目图像超分性能,是值得深入研究的问题。本次竞赛旨在为双目图像SR建立一个利用双三次插值下采样的基准,并采用最后的保真指标作为评价指标,以此鼓励研究人员共享知识和见解,推动算法性能的提升,以促进立体图像超分技术的发展。
在图像恢复领域,常常运用多阶段处理策略。尽管基于Transformer的方法在单图像超分辨率任务中具有高效性,但在立体超分辨率任务中的优势并不明显,这主要源于两点原因:一是现行的单图像超分辨率Transformer在处理过程中无法整合到丰富的立体信息;二是Transformer的性能主要取决于充足的数据,而在典型的立体图像超分辨率任务中,数据不足。为了克服这些难题,我们的研究团队提出了一种结合Transformer和CNN注意力网络(HTCAN)的混合方法,它既能利用Transformer进行单图像增强,又能借助CNN实现立体信息的整合。同时,我们采用了多补丁训练策略以及较大的窗口尺寸,从而扩大了感知域。在技术方面,我们还对诸如数据增强、数据合成和模型合成等高级技术进行了重新审视,以降低过拟合和数据偏差的风险。最终,通过这种综合方法,我们在竞争中脱颖而出,取得了第一名的好成绩。
论文链接:https://arxiv.org/pdf/2305.05177.pdf
整体双目超分策略
360°全景图像超分赛道:两阶段框架提升全方位视角图像分辨率
360°全景图像技术能够捕捉到全面的视角,为用户带来更加沉浸式的体验,因此在虚拟现实(VR)和增强现实(AR)等领域得到了广泛应用。但是,受限于使用的鱼眼镜头等因素,360°全景图像的分辨率相对较低,从而影响了图像的清晰度和细节表现。因此,如何提升360°全景图像的分辨率已经成为一个关键的研究课题。
超分辨率技术是一种图像处理方法,其主要目的在于从低分辨率图像中挖掘出更多细节信息,并将其整合到高分辨率图像中,以此提升图像的整体质量。在360°全景图像的应用场景中,超分辨率技术的作用尤为显著。它能够从初始的低分辨率全景图像中,找回丢失的高频信息,进而使图像的清晰度与细节得到显著改善,从而提升用户在浏览过程中的视觉体验。
在最近的竞赛中,我们的团队展示了一种创新性的360°全景图像超分辨率技术,该技术分为两个阶段进行。在第一阶段,我们提出了两个子模型:Model A和Model B。Model A主要包括全景位置感知可变形块(OPDB)和傅里叶上采样,其目标是提升360°图像的位置信息特征提取能力。而Model B则在Model A的基础上,引入了空间频率融合模块(SFF),从而更加关注360°图像的高频信息。进入第二阶段,我们利用Model A的架构,对360°图像进行了同分辨率增强。同时,我们也 collect 球面数据,并采用退化网络生成了伪低分辨率图像,这一举措有助于提高Transformer模型的拟合能力。经过团队的共同努力,我们的方法在性能上取得了显著的优势,并在NTIRE 2023 360°全景图像超分辨率挑战赛中荣获冠军。
论文链接:https://arxiv.org/pdf/2304.13471.pdf
整体球面超分策略
Model A和Model B的网络结构
火山引擎多媒体实验室在双目超分双三次插值保真和360°全景图像超分领域取得了显著的突破,荣获了双赛道冠军。这两项技术方案将助力广大用户在各种复杂场景中实现清晰、精细的图像展示效果,从而推动视频行业朝着更智能、高效的方向迈进。值得一提的是,360°全景图像超分技术已经在幸福里App成功应用,并借助火山引擎veImageX产品向企业级用户开放。
火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。
火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。
CVPR, NTIRE, 双目超分, 360°全景图像
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!