斩获 CVPR NTIRE 冠亚军,小红书如何提升短视频与直播体验质量?

近日,CVPR NTIRE 2024 Challenges[1] 各赛道相继公布比赛结果,小红书音视频架构团队图像算法组在两项重要竞赛中斩获冠、亚军

其中,他们主导参与 Restore Any Image Model in the Wild Challenge[2](简称 RAIM),在该赛事上获得第二名(客观指标第一,主观评价第二,综合排名第二)。

在 Short-form UGC Video Quality Assessment Challenge[3](简称 S-UGC VQA)赛事中,他们与上海交通大学翟广涛教授课题组联合参与,一举夺魁。

图片

NTIRE(New Trends in Image Restoration and Enhancement),作为近年来在图像处理和底层视觉领域最具影响力的全球性研讨会之一,由苏黎世联邦理工学院计算机视觉实验室主办。NTIRE 通常涵盖图像修复、增强、质量评价等多个底层视觉竞赛,旨在鼓励研究人员探索计算机视觉中图像恢复和增强的新技术和新方法,吸引全球众多顶尖高校和知名公司的积极参与。

随着小红书视频业务发展,提升短视频和直播的基础体验质量变得尤为关键。在这一过程中,视频图像复原、增强以及质量评价等图像处理和底层视觉算法发挥了重要作用。小红书音视频架构团队图像算法组不仅承担了这些关键技术的研发任务,并在近两年上线落地了一系列算法和方案,取得了不错的业务收益。

本文将带您回顾这些激动人心的竞赛,包括赛事介绍、方案简介和竞赛结果。随后,结合短视频和直播场景下的业务背景、评价方法和技术方案特点,作者将详细阐述图像算法如何在小红书的视频处理业务中得到落地应用,并探讨它们如何为业务带来实际收益。

图片

1.1 赛事介绍

图像复原一直以来都是底层视觉研究的热点问题,旨在提高包含各种形式退化的图像的主客观视觉质量。近年来,底层视觉领域的研究方向已经开始朝向“工业应用”偏移,但从学术研究到工业应用仍旧存在着差距。例如,数字相机的图像信号处理系统始终面临着复杂的混合退化问题,而学术研究中的大多数方法都是基于模拟和有限的退化设计和评估的,如何设计和训练一个可以推广到实际应用的模型是一个具有挑战性但非常有价值的问题 [4]。

OPPO 研究院 Y-Lab 和香港理工大学的视觉计算实验室联合主办 RAIM 竞赛。组织者将基于工业界在影像领域的经验积累,提供真实测试环境中收集的数据供参赛者研究和测试他们的算法模型,并提供来自工业界经验丰富的从业者的高质量反馈,将工业界真实的场景、效果需求展示给研究者。

竞赛包括两个任务,任务一是对包含 ground truth 的测试图进行复原增强,组织者将基于量化指标对提交的参赛结果进行评分排序。任务二将向排行榜前十名的选手额外发布 50 组无参考终评数据,选手提交结果后,组织者将邀请工业界资深从业者、专家进行主观评测打分。

1.2 方案简介

近年来,扩散模型在图像复原领域取得了显著成果,其中使用大规模数据预训练的生成扩散模型因其强大的生成式先验进一步展现了在图像复原任务上的潜力。

本次竞赛中,我们采用了当下最先进的生成式复原模型——SUPIR,来提高图像复原的主观视觉质量。SUPIR 基于大规模数据预训练,其泛化能力得益于其强大的生成先验知识。然而,基于扩散模型的方法在图像复原的保真度上存在挑战,加之训练测试数据分布差异较大,我们发现 SUPIR 在部分测试数据中会存在明显失真现象。

考虑到有限的竞赛时间和训练资源,以及相比手机厂商我们在构建测试数据场景下相似分布的训练集上没有优势,我们没有选择基于 SUPIR 做微调。而是进一步利用 DeSRA 方法,通过检测 SUPIR 模型输出效果不佳(即保真度差)的区域,再设计一个 Fusion 模型优化上述区域,从而实现整体复原效果提升。整体方案如图 1.1 所示:

图1.1 整体框架

如前所述,DeSRA 模型用于找出 SUPIR 结果的潜在失真区域,输出一个二分类 mask。准确的失真区域检测具有较大的难度,并涉及非常繁琐的人工标注以及重训练。

在竞赛中,我们仅预期 DeSRA 可以检测出 SUPIR 可能失真的语义类别和区域,从而降低检测精确率和召回率难以同时满足的挑战。考虑到拍照场景对保真度具有较高的要求和主观评测倾向,我们的策略是提升 DeSRA 模块失真检测的召回率,允许精确率有所下降。

DeSRA 利用结构相似度质量评价和语义分割技术生成二分类 mask。为进一步提升检测准确率,DeSRA 模型的参考输入是一个 GAN-based 的模型输出结果,该 GAN-based 的模型是我们在任务一中采用的模型,达到了较好的主观视觉效果且保真度高(排名第一)。

Fusion 模型基于原图、SUPIR 输出图以及二分类 mask 图执行微调训练,如图 1.2 所示。在推理阶段,mask 的黑色区域保留了 SUPIR 的结果,而白色区域基于原图进行重新生成,以保证最终效果的保真度。值得注意的是,白色区域的重生成也会受到黑色区域 SUPIR 结果的引导和约束,确保整体图像的一致性和质量。

图片

图1.2 Fusion 架构

1.3 竞赛结果

RAIM 竞赛吸引 200+ 支队伍注册参赛,其中任务一共有 400+ 次提交。任务一的量化指标是多个计算指标分数的加权融合,其计算公式如下:

其中 PSNR、SSIM、LPIPS、DISTS 是全参考图像质量评价指标,NIQE 是无参考图像质量评价指标。在任务一中,我们参赛方案的提交结果排名第一,量化指标分数为 81.96 分。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小红书技术REDtech

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值