关于文献Multi-Frame Quality Enhancement for Compressed Video的理解

本博文仅作小白学习记录使用,论文原文在资料下载处可见,所有疑惑点均作了标注。欢迎各位大佬交流批评指正,侵删。
题目:压缩视频的多帧质量增强
摘要
过去的几年中,深度学习已经很好地应用在提高压缩视频的质量上,现存的方法主要是对单帧进行质量提高,忽略了连续帧之间的相关性。在本文中,我们研究了在压缩视频帧之间存在严重的质量波动,通过使用邻域高质量帧可以改善低质量帧的质量,这种方法叫做多帧质量增强(MFQE)。本文在这个方向中,第一次尝试提出应用在压缩视频上的一种MFQE的方法。在这个方法中,我们首先引入了一个支持向量机(SVM),这个向量机基于在压缩视频中定位最高质量帧(PQFs)的检测器;然后设计了一个新的多帧卷积神经网络(MF-CNN) ,当输入为低质量帧和最靠近它的两个PQFs时,来提高压缩视频的质量。MF-CNN通过运动补偿子网(MC-subnet)对运动进行补偿,随后质量增强子网(QE-subnet)通过两个最靠近它的PQFs来减少一个非PQF的压缩效应。最后,实验验证了这种MFQE方法在提高压缩视频质量方面的有效性和通用性。我们的MFQE方法代码可以在https://github.com/ryangBUAA/MFQE.git.处下载。
一、介绍
在过去的几十年里,视频在互联网上变得非常流行。关于Cisco数据流量预测,2016年视频产生网络流量的60%,到2020年将会达到78%。当在带宽受限的网络传输视频时,视频压缩必须应用于大幅度节省编码比特率。然而,压缩视频不可避免地要受到压缩效应的影响,会极大地降低用户的体验质量(QoE)。因此,提高压缩视频的质量迫在眉睫。近来,兴起了很多提高压缩图像/视频[25, 10,18, 33, 6, 9, 35, 12, 24, 24, 38]视觉质量的研究方向。例如,Dong等人设计了一个四层卷积神经网络(CNN),称作AR-CNN,能够提高JPEG图像的质量。Yang等人为提高压缩视频质量设计了一个解码端可扩展CNN(DS-CNN)。然而,当处理单个帧时,任何方法都不会利用相邻帧的有效信息,因此他们的表现力被极大地限制。如图1所示,压缩视频的质量在帧与帧之间有很大的波动。
在这里插入图片描述
图1:质量波动示例(上)和质量增强性能示例(下)
因此,我们可以使用高质量的帧(PQFs)来增强旁边的低质量的帧(non-PQFs)的质量。这样就可以视作多帧质量增强(MFQE),类似于多帧超分辨率重建。
本文提出了一个对于压缩视频的MFQE方法,特别地,我们首先研究了现存的多帧之间的质量大范围波动,这些压缩序列来自于几乎所有的压缩标准。这样看来,找到能够提高相邻非PQF质量的PQFs就显得尤为重要。正因如此,我们训练了一个支持向量机(SVM)来作为一种检测PQFs的无参考方法(??),然后提出了一个新颖的多帧CNN(MF-CNN)结构,在输入为低质量帧和最靠近它的两个PQFs时,来提高压缩视频的质量。我们的MF-CNN 包括两个部分,运动补偿子网(MC-subnet)和质量增强子网(QE-subnet)。运动补偿子网是用来对当前non-PQF和它的PQFs之间的运动进行补偿。质量增强子网拥有时空联合结构,用来提取和合并当前non-PQF和它的补偿PQFs的特点。最后,质量增强子网可以利用相邻PQFs的高质量内容对当前的non-PQF的质量进行提高。如图 1所示,当前non-PQF(帧96)和离它最近的PQFs(帧93和帧97)输入至我们MFQE 方法的MF-CNN,观察结果,non-PQF(帧96)的低质量内容(basketball)的质量能够利用PQFs(帧93和帧97)的高质量相同内容进行改善。并且,因为non-PQF的有效值赖能够提高,图1也表明了我们的MFQE方法能够缓解质量波动情况。
二、相关工作
1、质量提高
近来,广泛的工作[25,10, 33, 18, 19, 6, 9, 12, 35, 24, 4] 已经将关注点放在了提高压缩图像视觉质量上。首先,Foi等人应用了逐点形状自适应DCT(SA-DCT)来减少JPEG压缩中产生的块效应和振铃效应;随后,Jancsary等人提出采用回归树字段(RTF)来减少JPEG中的块效应,并应用稀疏编码来去除JPEG负面效应。近年来,深度学习同样成功地被用于提高压缩图像视觉质量,尤其。Dong等人设计了一个四层AR-CNN,能够去除JPEG图像的负效应;然后,利用JPEG的先验知识,提出D3和深度双域卷积网络(DDCN)作为深度网络来提高图像的质量。随后,DnCNN被应用在几个图像复原的工作中,包括质量提升。最近,Li等人提出了一个20层的CNN,实现了对于压缩图像的极大的质量提高。
对于压缩视频的质量提高,对于HEVC的帧内编码,可变滤波器大小残差学习CNN(VRCNN)用来代替内循环滤波器。然而CNN是编码器的一部分,对已经压缩的视频没有实际意义。近来,一个包括10层CNN并且基于CNN的深度自动解码器(DCAD)被提出用来减少压缩视频的失真效应。此外,Yang等人为提高压缩视频质量提出了解码端可扩展CNN(DS-CNN)。在他们的文章中,作为DS-CNN中的两个子网,DS-CNN-I 和 DS-CNN-B分别被用来减少帧内和帧间编码的负效应。更重要的是,当应用DCAD 和 DS-CNN 时,视频编码器不需要被修正。然而,所有的方法均可以被视为单帧提高质量的方法,因为他们不使用相邻帧的有效信息。因此,提高视频质量的表现力被大大限制。
2、多帧超分辨率
据我们所知,现在并不存在对于压缩视频的MFQE。最接近于这个方向的就是多帧视频的超分辨率。早些年,Brandi和Song等人提出利用高分辨率关键帧来提高视频的分辨率,近年来许多多帧超分辨率技术被应用在深度神经网络中。例如,Huang等人建立了一个双向循环卷积网络(BRCN),对于超分辨率的表现力超过了传统的单帧方法。在2016年Kappeler等人提出了一个视频超分辨率网络(VSRnet),即邻域帧根据运动估计进行变换,变换后的邻域帧和当前帧输入至超分辨率CNN,用来提高当前帧的分辨率。然后,Li等人提出了用使用残差学习网络的更深的网络来代替VSRnet。此外,其他的视频超分辨率的深度学习方法也被陆续提出。
上述多帧超分辨率方法的驱动在于,相同物体或场景的不同观察值可能在视频的不同帧都是可以获得的。因此,当当前帧进行下采样时,邻域帧可能包含当前帧丢失的内容。同样的,为了压缩视频,提质量的帧可以利用相邻高质量的帧进行改善,因为压缩帧之间存在严重的质量波动,因此,压缩视频的质量可以借助多帧信息来进行改善。据我们所知,在这个方向我们团队是第一人。
三、压缩视频的质量波动
在这个部分,我们分析压缩视频镇之间的质量波动。我们建立一个包括70个未压缩的视频序列的数据,序列均来自Xiph.org [37]和JCT-VC [1]数据集。我们使用各种压缩标准对序列进行压缩,包括MPEG-1 [11], MPEG-2 [28], MPEG-4[29], H.264/AVC [36]和HEVC [31],每一帧的压缩质量用信噪比PSNR来衡量。
图2显示了不同标准压缩的8种视频序列的信噪比曲线。可以明显看出,压缩视频的质量随着帧数的变化不断地波动。
在这里插入图片描述
图2:各种压缩标准下压缩视频的PSNR曲线
我们更进一步衡量每个压缩视频的帧level质量的标准差(STD),如表1所示,所有5种标准的STD值均超过1dB,是70个压缩序列的平均值。70个序列中最大STD可以达到3.97 dB, 4.00 dB, 3.84 dB, 5.67 dB 和3.34 dB分别对应MPEG-1, MPEG-2, MPEG-4, H.264 和HEVC。这反应了视频压缩之后,帧level质量的显著波动。
表1:数据库中的平均STD、PVD和PS值
在这里插入图片描述
更多的是,图3显示了使用HEVC标准进行压缩,一个序列的帧level的PSNR和主观质量的示例。我们可以从图3中看出,存在频繁交替的PQFs和VQFs。在此,PQFs被定义为质量比前后帧都要高的帧,相反的,VQFs被定义为质量比前后帧都要差的帧。如图3所示,non-PQFs (帧 58-60)除了VQF(帧60)的PSNR,很明显的要低于最近的PQFs(帧57和61),而且non-PQFs (帧 58-60)比最近的PQFs(帧57和61)的主观质量要低。例如:在数字“87”的区域,帧57-61的内容差不多。因此non-PQFs的视觉质量可以用最近的PQFs内容进行改善。
在这里插入图片描述
图3:HEVC压缩视频序列football的帧level的PSNR和主观质量示例
为了进一步研究帧level的质量的“顶峰”和“低谷”,我们对于每个压缩视频序列的PSNR曲线引入了Peak-Valley差值(PVD)和Peak间隔(PS)。如图3的(a)所示,PVD被定义为PQF和离它最近的VQF的PSNR的差值,PS为两个PQFs之间的帧的个数。70个使用不同压缩标准压缩的视频序列的PVD和PS的平均值如表1所示。我们看出,在大多数情况下,平均PVD的值要大于1dB,最近的HEVC标准达到了最大值为1.5dB。这就说明了PQFs和VQFs之间的质量的巨大差异。另外,对于每一种标准的平均PS值大约为5帧或者小于5帧。特别是,在HEVC或者H.264中,平均PS的值小于3帧。这种两个PQFs之间的短距离说明了两个相邻的PQFs的内容是高度相同的。因此PQF中可能存储着邻域non-PQFs中已经失真的有用内容。出于这种想法,我们MFQE方法被提出通过利用最近的PQFs的有用信息提高non-PQFs的质量。

四、提出的MF-CNN方法
4.1框架

图4:本文MFQE方法的框架
图4展示了我们的MFQE方法的框架。在这种MFQE的方法中,我们首先检测那些用于改善其他non-PQFs的质量的PQFs,在实际应用中,在压缩视频质量提升中raw序列通常是不可获得的,因此不能通过对比raw序列来辨别non-PQFs和PQFs。因此,我们在这种MFQE中引入了一种无参考PQFs检测器,详情在4.2中。
那些已经被检测到的PQFs的质量可以通过DS-CNN进行增强,因为PQFs相邻的帧是低质量并且不能利用PQFs的优势,因此DS-CNN是增强单帧质量的方法。我们对DS-CNN进行改进,使用参数修正线性单元(PReLU)代替修正线性单元(ReLU)来避免零梯度,并且应用残差学习来提高改善质量的表现力。
对于non-PQFs,使用MF-CNN来利用最近PQFs的有效信息来提高质量(例如:包括前一个和后一个PQFs)。MF-CNN结构由运动补偿子网(MC-subnet)和质量增强子网(QE-subnet)构成。运动补偿子网(MC-subnet)用来补偿相邻帧间的时间运动,具体地说,运动补偿子网(MC-subnet)首先对当前的non-PQFs和最近的PQFs进行了运动预测,然后,根据估计的运动,用空间变换器对距离最近的两个PQFs进行变换。这样的话,当前的non-PQFs和最近的PQFs之间的时间运动就可以被补偿。MC-subnet在4.3中被详细讲述。
最后,质量增强子网(QE-subnet)是一个时空联合结构,将在4.4进行讲述。在质量增强子网(QE-subnet)中,输入当前的non-PQFs和已被补偿的PQFs,然后当前non-PQFs的质量将在已被补偿的PQFs的帮助下进行改善。值得注意的是,在这个MF-CNN中,运动补偿子网(MC-subnet)和质量增强子网(QE-subnet)以端到端的方式联合训练。
4.2基于SVM的PQF检测器
在我们的MFQE方法中,对SVM分类器进行训练来实现无参考PQF的检测。PQFs是相邻帧中的高质量的帧,因此,当前和四邻域帧的特点都可以用来对PQFs进行检测。在我们的方法中,PQFs检测器使用一个无参考质量评估策略,来从当前帧抽取36个一维的空间特征。另外,这种空域特征也可以从前面的两帧和后面的两帧抽取。因此基于SVM分类器通过180个空域特点可以预测此帧是non-PQFs还是PQFs。
在我们的SVM分类器中,在这里插入图片描述定义了输出分类标签,表明了第n帧是PQFs(正样本ln=1)还是non-PQFs(负样本ln=0).我们使用LIBSVM库来训练SVM分类器,可以得到每一帧ln=1的概率,记做pn。在我们的SVM分类器中,我们使用径向基函数(RBF)作为核心。最终,我么可以从SVM分类器中得到在这里插入图片描述N为视频序列中的总的帧数。在我们的PQF检测器中,我们进一步提炼了根据PQF的先验知识得到的SVM分类器结果,特别的,引入以下两条策略重新精炼PQF检测器的标签在这里插入图片描述
1)根据PQF的定义,PQFs很有可能会连续出现,因此,如果出现以下情况:

我们在PQF检测器中设置:
在这里插入图片描述
2)根据第三章的分析,PQFs通常出现在有限的距离范围内,例如HEVC中的平均PS为2.66帧,因此,我们假设D为两个PQFs之间的最大距离,基于这种假设,如果在这里插入图片描述中连续为0的个数(non-PQFs的帧数)大于D:

那么我们必须从它中间选择一帧作为PQF
在这里插入图片描述
在这里插入图片描述做如上精简之后,我们的PQFs检测器就可以在压缩视频序列中定位non-PQFs和PQFs了。
4.3运动补偿子网(MC-Subnet)
PQFs被检测出来之后,non-PQFs的质量就可以利用附近的PQFs的有效信息进行改善。然而,时间运动仍然存在于non-PQFs和PQFs之间。因此,我们使用MC-subnet对帧之间的时间运动进行补偿。下面将介绍MC-subnet的结构和训练策略:
1、结构
在这里插入图片描述
图5:我们使用的MC-subnet结构
Caballero等人对多帧超分辨率提出了空域运动补偿变换器(STMC)方法,如图5所示,这种STMC方法采用了卷积层来估计x4和x2的下缩放运动矢量映射,定义为在这里插入图片描述。在在这里插入图片描述中,下缩放是通过采用一些2步长的卷积层来实现的。卷积层的更详细的细节在参考文献[3]
[3] J. Caballero, C. Ledig, A. Aitken, A. Acosta, J. Totz,Z. Wang, and W. Shi. Real-time video super-resolution with spatio-temporal networks and motion compensation. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017.
这种下缩放运动估计对处理大尺寸的运动十分有效,但是由于下缩放,运动矢量估计的精度就被大大降低了,因此,除了STMC,在我们的MC-subnet中,进一步增加了对于pixel-wise(???)的运动估计的卷积层,其中不包括任何下缩放处理。pixel-wise运动估计的卷积层可以用表2进行描述。
表2:pixel-wise运动估计的卷积层
在这里插入图片描述
正如图5所示,STMC的输出包括×2下缩放MV映射在这里插入图片描述和对应的已补偿的PQF——在这里插入图片描述。将non-PQFs和原始的PQFs串联输入到pixel-wise运动估计卷积层中,然后产生pixel-wise MV 映射,记做M。值得注意的是,MV的映射M包括两个通道水平映射Mx和垂直映射My。这里,x和y是每个像素的水平和垂直索引。给定了Mx和My,PQF进行变换用来对时间运动进行补偿。让被压缩的PQFs和non-PQFs分别作为Fp和Fnp。补偿后的PQF即F’p可以被表示为:

在这里插入图片描述
在这里插入图片描述为双线性插值,这是由于Mx(x, y) 和 My(x, y)的值可能为非整数。
2、训练策略
由于很难获得MV的ground truth(???),因此无法直接训练卷积层的运动估计参数。超分辨率工作通过最小化当前帧和相邻被补偿帧之间的MSE来进行训练参数,然而,在我们的MC-subnet中,输入的Fp和Fnp都是带有质量失真的压缩帧。因此当最小化F‘p和Fnp之间的MSE时,MC-subnet要去估计失真的MV,会造成运动估计的不精确。因此,MC-subnet必须要在raw 帧的监督下进行训练。我们使用从运动估计输出的卷积层映射来对PQF的raw 帧(记做在这里插入图片描述)进行变换,并将被补偿的raw PQF(在这里插入图片描述)和被补偿的raw non-PQF(在这里插入图片描述)之间的MSE最小化。MC-subnet的损失函数可以被记做:
在这里插入图片描述
其中在这里插入图片描述为我们的MC-subnet中的可训练参数。值得注意的是,在测试中补偿运动时,不需要使用到raw 帧的在这里插入图片描述
4.4质量增强子网(QE-subnet)
给定了被补偿的PQFs,non-PQFs的质量可以通过QE-subnet进行改善,QE-subnet为时空联合结构。特别地,和当前的non-PQFs一起,被补偿的前面和后面的PQFs(记做在这里插入图片描述)被输入至QE-subnet中。就这样,三个帧的时间和空间的特点全部被研究和融合。因此,相邻的PQFs的有用信息可以被用来提高non-PQFs的质量。这和基于 CNN的图像\单帧的质量提升方法不同,它仅仅在一帧里面处理空间信息。
1)结构
在这里插入图片描述
图6:QE-subnet的结构
表3:QE-subnet的卷积层
在这里插入图片描述
QE-subnet的结构如图6所示。卷积层的具体细节在表3中给出。在QE-subnet中,卷积层conv1,2和3被用来提取输入帧在这里插入图片描述的空域特征。然后为了使用F‘p1的高质量信息,conv4被用来融合Fnp和F‘p1的特征。也就是说,conv1和2的输出被串联并且与conv4卷积。同样的,conv5被用来融合Fnp和F‘p2的特征.conv6/7被用来提取conv4/5的更加复杂的特征。因此,conv6和conv7提取的特征通过conv8非线性映射到另一个空间,重建的残差,记做在这里插入图片描述,在conv9中被重建。non-PQFs的质量增强是通过对输入non-PQFs Fnp加上在这里插入图片描述实现的。这里,在这里插入图片描述被定义为QE-subnet中的可训练参数。
2)训练策略
我们的MF-CNN的MC-subnet和QE-subnet都是端到端的联合训练。假设在这里插入图片描述分别被定义为上一个和下一个PQFs的raw帧。MF-CNN的损失函数可以被表示为:
在这里插入图片描述
如公式7所示,MF-CNN的损失函数为权重Lmc和Lqe之和,分别为MC-subnet和QE-subnet的损失函数。由于MC-subnet产生的F‘p1和F‘p2是QE-subnet的基础,我们在训练的开始设置a>>b,观察了LMC收敛后的情况,我们设置a<<b来最小化在这里插入图片描述之间的MSE。最后non-PQFs Fnp的质量能够使用最近的PQFs的有效信息进行改善。
五、实验
5.1设置
给出的实验结果来验证我们的MFQE方法的有效性。在我们的实验中,第三章引入的70个视频序列被分为训练集(60个序列)和测试集(10个序列)。训练序列和测试序列均使用最近的HEVC压缩标准进行压缩,将QP设置为42和37.我们的MFQE方法对于QP为42和37的压缩视频分别训练了两个模型。在基于SVM的PQFs检测机中,公式(3)中的在这里插入图片描述设置为6.这是因为HEVC压缩标准下的所有压缩序列两个最近的PQFs之间的最大距离是6帧。当训练MF-CNN时,raw和压缩的序列被分为64x64的块,用来作为训练样本。批处理大小(batch size)设置为64。我们采用Adam算法,初始学习率为10(-4),使(7)的损失函数最小化。在训练的初始阶段,我们把公式7设置为a=1,b=0.01来训练MC-subnet,在MC-subnet(converges)之后,再将参数设置为a=0.01,b=1来训练QE-subnet。
5.2 PQF检测器的性能
由于PQF检测是我们提出的MFQE方法的第一步,我们从精度、recall??、和F1得分对PQF检测器进行评估,如表4所示。
表4:测试序列的PQF检测器的性能
在这里插入图片描述
我们从表4中可以看出,当QP为37时,我们基于SVM的PQF检测器的平均精度和recall分别为:90.68% 和92.11% ,另外,F1-分数(被定义为精度和recall的谐波平均精度)为91.09%。相同的结果在QP为42时,平均精度、recall和F1-分数分别为93.98%, 90.86% 和 92.23%。因此,我们的基于SVM的PQF检测器的性能是有效的。
5.3MFQE方法的性能
在这一章节,通过根据ΔPSNR对我们MFQE方法的性能进行评估,ΔPSNR是原始压缩序列和改进后序列之间的PSNR的差值。该方法的性能和AR-CNN、DnCNN、DCAD、DS-CNN和Li的文章提出的算法进行比较。其中,AR-CNN,DnCNN 和Li的文章是对于提高压缩图像的质量的最近的成果。DCAD和DS-CNN是现在最先进的视频质量增强方法。
对于non-PQFs的质量提升
我们的MFQE方法主要是针对使用多帧信息来提高non-PQFs的质量。因此,首先我们来评估non-PQFs的质量增强情况。图8显示了在QP=37的情况下,全部10个序列的PQFs, non-PQFs
和 VQFs的平均ΔPSNR结果。正如图中所示,我们的MFQE方法相对于PQFs来说,更能够极大程度的提高non-PQFs的质量。并且,我们的方法能够对VQFs实现更高的ΔPSNR。相比较而言,那些其他的方法对于non-PQFs质量的改善情况等于甚至低于PQFs的改善情况。特别地,对于non-PQFs,我们的方法的ΔPSNR是DS-CNN方法的两倍,并且DS-CNN还是众多方法中最好的一种。这就证明了我们的MFQE方法能够有效提高non-PQFs的质量。
在这里插入图片描述
综合质量的提升
表格5给出了每个测试序列所有帧的平均ΔPSNR。正如表格5所示,我们的方法的输出在所有序列的条件下均优于其他方法。具体来说,当QP=37时,我们方法的最高PSNR能够达到0.7716 dB,平均ΔPSNR为0.5102 dB。比Li的文章高了87.78%,比DS-CNN高了57.86%,此外相比于 AR-CNN , DnCNN 和 DCAD更高。在QP=42时,我们的方法的ΔPSNR依旧是DS-CNN方法的两倍。因此,我们的方法对于所有的序列都是有效的,这主要是由于我们改善了占据压缩视频大部分的non-PQFs的质量。
质量波动
除了机器因素,质量波动也是导致压缩视频的QoE [15, 32, 16]下降的原因。幸运的是,综上所述,我们的方法能够减轻质量波动,这是因为我们改善了non-PQFs的质量。如第3节所介绍的,我们根据PSNR曲线的STD和PVD来评估视频质量的波动。图7展示了在所有测试序列的条件下,对于HEVC和其他方法的STD 和PVD值的平均值。正如图7所示,在提高压缩视频质量之后我们的方法能够有效减小STD 和PVD值。相反来说,以HEVC为基准线,其他的方法却增大了STD 和PVD的值。因此和其他方法相比,我们的方法能够减轻质量波动,获得更好的QoE。图9更进一步的展示了对于两个测试序列的HEVC基准和我们方法的PSNR曲线。
在这里插入图片描述
可以看到,使用MFQE方法的PSNR曲线波动明显要比HEVC波动要小。总的来说,我们的MFQE方法能够有效地降低压缩视频质量波动,同时能够改善视频质量。
主观质量的表现
图10展示了Vidyo1 在QP = 37, BasketballPass 在 QP = 37和PeopleOnStreet 在QP = 42的情况下的主观质量表现。我们从图10中可以看出,我们的MFQE方法对比其他方法能够有效地去除块效应。尤其是那些被严重扭曲的内容,比如Vidyo1中的嘴巴,BasketballPass中的球和PeopleOnStreet中的影子,他们能够在我们的MFQE方法中利用临近的高质量帧进行重建出来。相反的,这些扭曲的内容很难仅仅使用一种低质量帧(像其他方法一样)来进行重建。
使用PQFs的影响
最后,通过对MF- CNN进行再训练,利用相邻帧代替PQFs增强non-PQFs,验证了利用PQFs的有效性。在我们的实验中,使用相邻帧代替PQFs分别仅仅只有0.3896 dB 和 0.3128 dB的ΔPSNR 在QP=37和 42时。相反的,正如上述所说,使用PQFs能够达到ΔPSNR 为0.5102 dB和 0.4610 dB在QP = 37 和 42时。并且,之前也已经讨论过利用PQFs进行质量提升的non-PQFs的ΔPSNR要比PQFs大得多。这就证明了我们的MFQE方法使用PQFs的有效性。
5.4转换到H.426
我们进一步验证了转换到H.264的标准下的我们方法的性能。我们的训练和测试序列都使用H.264在QP=37的情况下进行压缩。然后,训练序列被用来调整MF-CNN的模型。然后测试序列分别被我们的MFQE方法和调整后的MF-CNN方法进行质量改善。我们发现测试序列的PSNR能够改善近0.4540 dB。这个结果可比于HEVC下的结果(0.5102 dB)。因此,我们的MFQE方法的综合性能就得以验证。
6.结论
在这篇论文中,我们提出了一个基于CNN的MFQE方法来减小视频的压缩效应,和其他仅使用单帧进行质量提升的方法不同,我们的MFQE方法能够使用最临近的高质量PQFs来对当前帧的质量进行改善一帧的质量。为了达到这个目的,我们提出了一个新的CNN框架,叫做MF-CNN来提高每一个non-PQFs的质量。我们的MF-CNN中的MC子网能够对PQFs和non-PQFs之间的运动矢量进行补偿。随后,QE子网能够通过输入当前non-PQFs和补偿过的PQFs
提高每个non-PQFs的质量。最终。实验结果表明我们的MFQE方法能够有效改进non-PQFs的质量,效果远高于其他的视频提升方法。最后,该方法在减小质量波动的情况下的质量提升效果要比其他方法都要明显。

Object detection in remote sensing images is a challenging task due to the complex backgrounds, diverse object shapes and sizes, and varying imaging conditions. To address these challenges, fine-grained feature enhancement can be employed to improve object detection accuracy. Fine-grained feature enhancement is a technique that extracts and enhances features at multiple scales and resolutions to capture fine details of objects. This technique includes two main steps: feature extraction and feature enhancement. In the feature extraction step, convolutional neural networks (CNNs) are used to extract features from the input image. The extracted features are then fed into a feature enhancement module, which enhances the features by incorporating contextual information and fine-grained details. The feature enhancement module employs a multi-scale feature fusion technique to combine features at different scales and resolutions. This technique helps to capture fine details of objects and improve the accuracy of object detection. To evaluate the effectiveness of fine-grained feature enhancement for object detection in remote sensing images, experiments were conducted on two datasets: the NWPU-RESISC45 dataset and the DOTA dataset. The experimental results demonstrate that fine-grained feature enhancement can significantly improve the accuracy of object detection in remote sensing images. The proposed method outperforms state-of-the-art object detection methods on both datasets. In conclusion, fine-grained feature enhancement is an effective technique to improve the accuracy of object detection in remote sensing images. This technique can be applied to a wide range of applications, such as urban planning, disaster management, and environmental monitoring.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值