
论文翻译
文章平均质量分 94
ysh9888
这个作者很懒,什么都没留下…
展开
-
First order motion model for image animation
图像动画技术涉及生成视频序列,使得源图像中的对象能够根据驱动视频的运动进行动画处理。我们的框架解决了这一问题,而无需使用关于待动画对象的任何标注或先验信息。一旦在一组描绘同类对象(例如人脸、人体)的视频上进行训练后,我们的方法便可应用于此类中的任何对象。为实现这一点,我们使用自监督公式将和解耦。为了支持复杂运动,我们采用了一种表示方法,该方法由一组学习到的关键点及其局部仿射变换组成。一个生成器网络对目标运动过程中产生的遮挡进行建模,并将从源图像中提取的外观信息与从驱动视频中导出的运动信息相结合。原创 2025-01-17 15:31:37 · 710 阅读 · 0 评论 -
3DDFA-V2 :Towards fast, accurate and stable 3d dense face alignment
现有的3D密集人脸对齐方法主要集中在准确性上,从而限制了其实际应用范围。在本文中,我们提出了一种名为3DDFA-V2的新型回归框架,该框架在速度、准确性和稳定性之间取得了平衡。首先,在轻量级主干网络的基础上,我们提出了一种元联合优化策略,以动态回归一小组3D形态模型(3DMM)参数,这极大地同时提升了速度和准确性。为了进一步提高视频上的稳定性,我们提出了一种虚拟合成方法,该方法可以将一张静态图像转换为包含平面内和平面外面部运动的短视频。原创 2025-01-17 15:29:31 · 1362 阅读 · 0 评论 -
EAMM: 通过基于音频的情感感知运动模型实现的一次性情感对话人脸合成
尽管音频驱动的对话人脸生成技术已取得显著进展,但现有方法要么忽视了面部情感,要么无法应用于任意主体。在本文中,我们提出了情感感知运动模型(EAMM),通过引入情感源视频来生成一次性情感对话人脸。具体来说,我们首先提出了一个Audio2Facial-Dynamics模块,该模块能够从音频驱动的无监督零阶和一阶关键点运动中渲染出对话人脸。然后,通过探索运动模型的特性,我们进一步提出了一个隐式情感位移学习器,将情感相关的面部动态表示为先前获得的运动表示的线性可加位移。原创 2025-01-17 15:08:45 · 1259 阅读 · 0 评论 -
Wav2lip
在本文中,我们研究了将任意身份的说话人脸视频与目标语音片段进行唇音同步的问题。当前的工作在静态图像或训练阶段看到的特定人物的视频上能够生成准确的唇动,然而,它们无法准确地将动态、无约束的说话人脸视频中的唇动与语音进行同步,导致视频中的大部分内容与新的音频不同步。我们找出了造成这种情况的关键原因,并通过向强大的唇音同步判别器学习来解决这些问题。接下来,我们提出了新的、严格的评估基准和指标,以准确测量无约束视频中的唇音同步情况。原创 2025-01-17 15:03:06 · 779 阅读 · 0 评论 -
Model-Based Image Signal Processors via Learnable Dictionaries
数码相机通过其图像信号处理器(ISP)将传感器的RAW数据转换为RGB图像。图像去噪和色彩恒常性等计算摄影任务通常在RAW域中进行,这部分归因于固有的硬件设计,但也因为直接传感器读数所产生的噪声统计具有吸引人的简单性。尽管如此,与丰富多样的RGB数据相比,RAW图像的可用性有限。最近的方法试图通过估计RGB到RAW的映射来弥合这一差距:可解释且可控的手工模型基方法通常需要手动精细调整参数,而端到端可学习的神经网络则需要大量训练数据,有时训练过程复杂,且通常缺乏可解释性和参数控制。原创 2025-01-17 11:03:22 · 651 阅读 · 0 评论 -
Deep RAW Image Super-Resolution 论文浅翻译
本文综述了NTIRE 2024 RAW图像超分辨率挑战赛,重点介绍了所提出的解决方案及结果。在现代图像信号处理(ISP)流程中,RAW图像超分辨率的新方法可能至关重要,然而,与RGB领域相比,这一问题的研究尚不充分。本次挑战赛的目标是将RAW Bayer图像放大2倍,同时考虑噪声和模糊等未知退化因素。挑战赛期间,共有230名参与者注册,其中45名提交了结果。本文在此回顾并提供了前5名提交作品的性能,以此作为当前RAW图像超分辨率领域最先进技术的衡量标准。原创 2025-01-17 10:57:11 · 1251 阅读 · 0 评论 -
实现高效的深盲原始图像恢复
诸如去噪、去模糊和超分辨率等多重低视觉任务通常从RGB图像开始,进一步减少退化现象,从而提高图像质量。然而,由于在图像信号处理(ISP)过程中的转换,在sRGB域中建模这些退化现象变得复杂。尽管这是一个已知问题,但文献中很少有方法直接处理传感器RAW图像。在本文中,我们直接在RAW域中处理图像恢复问题。我们设计了一个新的真实退化管道,用于训练深度盲RAW恢复模型。我们的管道考虑了真实的传感器噪声、运动模糊、相机抖动和其他常见的退化现象。原创 2024-10-23 16:03:07 · 1293 阅读 · 0 评论 -
深层面部恢复综述:降噪、超分辨率、去模糊、伪影去除
图像在形成、传输和存储过程中会发生降质。对于现实世界中的面部图像,降质可能以多种形式出现,包括加性噪声、空间不变或变模糊、混叠和压缩伪影。一般来说,面部图像降质模型可以表示为:nδ),(1)其中Ilq是低质量面部图像,D是指与噪声无关的降质函数,Ihq是对应的高质量面部图像,n通常表示具有噪声水平δ的加性高斯白噪声。通过指定不同的D,可以得到不同的降质情况。例如,当D是恒等函数时,为噪声降质[41]、[42];当D是卷积/平均操作时,为模糊降质[33]、[43];原创 2025-01-17 11:05:57 · 1007 阅读 · 0 评论