- 博客(141)
- 资源 (33)
- 收藏
- 关注
原创 SYENet: A Simple Yet Effective Network for Multiple Low-Level Vision Taskswith Real-time Performan
随着AI硬件加速器的快速发展,在移动设备上应用基于深度学习的算法解决各类。
2025-03-07 14:29:46
759
原创 Diff2Lip: Audio Conditioned Diffusion Models for Lip-Synchronization
任务目标唇同步(Lip-Synchronization)技术旨在将不同的音频与说话者的唇部动作精准匹配。该技术在影视行业(如配音、虚拟角色生成)和跨语言视频本地化等领域有广泛应用。挑战现有方法在解决这一问题时,常因信息缺失导致生成的唇部动作与音频不同步,并伴随图像质量下降(如模糊或表情失真)。解决方案我们提出Diff2Lip,一种基于音频条件扩散模型(Audio-Conditioned Diffusion Model)的唇同步框架。保持原始视频的细节、头部姿态和情感表达;
2025-03-05 09:46:57
809
原创 WFEN-Efficient Face Super-Resolution via Wavelet-based Feature Enhancement Network
人脸超分辨率(FSR),也称为人脸幻觉,旨在将低分辨率(LR)人脸图像转换为高分辨率(HR)人脸图像。与图像超分辨率不同,FSR 专注于重建人脸的关键结构信息,包括面部轮廓和面部组件的形状。如图1所示,本文旨在提出一种高保真度的 FSR 方法,同时在模型大小和推理速度方面保持高效。现有的 FSR 方法[2, 4, 16]通常采用编码器 - 解码器结构,因为这种结构有助于模型在编码器阶段通过较大的感受野掌握整体面部结构,并在解码器阶段增强面部细节。
2025-02-14 15:54:07
919
原创 ESRT 原理代码详解
上一个是高频滤波器,设计比较巧妙提出了一种新颖的高效超分辨率 Transformer 模型——ESRT,其有机地结合了轻量级 CNN 和 Transformer 骨干(LCBLTB引入了架构以ESRT的LCB 主要由一系列高保真块(HPB)构成,通过降低特征映射的分辨率来减少计算成本,并利用自适应残差特征块和高频过滤模块来保留初始的细节信息。下面是HPB模块的具体结构设计:其包含两个主要的组件即HFM)和ARFBHFM是一种新的可微分高频信息估计方法,其很好的规避了传统。
2025-02-05 17:01:43
1456
原创 Zero-Shot Noise2Noise: Efficient Image Denoising without any Data 笔记
最近,自监督神经网络显示出出色的图像去噪性能。然而,当前的无数据集方法要么计算量大,需要噪声模型,要么图像质量不足。在这项工作中,我们展示了一个简单的 2 层网络,无需任何训练数据或噪声分布知识,就可以以较低的计算成本实现高质量的图像去噪。我们的方法受到 Noise2Noise 和 Neighbor2Neighbor 的启发,并且适用于逐像素独立噪声的去噪。
2025-01-22 17:15:03
777
原创 PixelShuffle 实现模型上下采样
PixelShuffle和UnpixelShuffle减少尺寸的同时也会改变通道数。效果还行可惜硬件不支持。
2025-01-18 10:09:27
218
原创 First order motion model for image animation
图像动画技术涉及生成视频序列,使得源图像中的对象能够根据驱动视频的运动进行动画处理。我们的框架解决了这一问题,而无需使用关于待动画对象的任何标注或先验信息。一旦在一组描绘同类对象(例如人脸、人体)的视频上进行训练后,我们的方法便可应用于此类中的任何对象。为实现这一点,我们使用自监督公式将和解耦。为了支持复杂运动,我们采用了一种表示方法,该方法由一组学习到的关键点及其局部仿射变换组成。一个生成器网络对目标运动过程中产生的遮挡进行建模,并将从源图像中提取的外观信息与从驱动视频中导出的运动信息相结合。
2025-01-17 15:31:37
633
原创 3DDFA-V2 :Towards fast, accurate and stable 3d dense face alignment
现有的3D密集人脸对齐方法主要集中在准确性上,从而限制了其实际应用范围。在本文中,我们提出了一种名为3DDFA-V2的新型回归框架,该框架在速度、准确性和稳定性之间取得了平衡。首先,在轻量级主干网络的基础上,我们提出了一种元联合优化策略,以动态回归一小组3D形态模型(3DMM)参数,这极大地同时提升了速度和准确性。为了进一步提高视频上的稳定性,我们提出了一种虚拟合成方法,该方法可以将一张静态图像转换为包含平面内和平面外面部运动的短视频。
2025-01-17 15:29:31
1223
原创 EAMM: 通过基于音频的情感感知运动模型实现的一次性情感对话人脸合成
尽管音频驱动的对话人脸生成技术已取得显著进展,但现有方法要么忽视了面部情感,要么无法应用于任意主体。在本文中,我们提出了情感感知运动模型(EAMM),通过引入情感源视频来生成一次性情感对话人脸。具体来说,我们首先提出了一个Audio2Facial-Dynamics模块,该模块能够从音频驱动的无监督零阶和一阶关键点运动中渲染出对话人脸。然后,通过探索运动模型的特性,我们进一步提出了一个隐式情感位移学习器,将情感相关的面部动态表示为先前获得的运动表示的线性可加位移。
2025-01-17 15:08:45
1193
原创 Wav2lip
在本文中,我们研究了将任意身份的说话人脸视频与目标语音片段进行唇音同步的问题。当前的工作在静态图像或训练阶段看到的特定人物的视频上能够生成准确的唇动,然而,它们无法准确地将动态、无约束的说话人脸视频中的唇动与语音进行同步,导致视频中的大部分内容与新的音频不同步。我们找出了造成这种情况的关键原因,并通过向强大的唇音同步判别器学习来解决这些问题。接下来,我们提出了新的、严格的评估基准和指标,以准确测量无约束视频中的唇音同步情况。
2025-01-17 15:03:06
707
原创 深层面部恢复综述:降噪、超分辨率、去模糊、伪影去除
图像在形成、传输和存储过程中会发生降质。对于现实世界中的面部图像,降质可能以多种形式出现,包括加性噪声、空间不变或变模糊、混叠和压缩伪影。一般来说,面部图像降质模型可以表示为:nδ),(1)其中Ilq是低质量面部图像,D是指与噪声无关的降质函数,Ihq是对应的高质量面部图像,n通常表示具有噪声水平δ的加性高斯白噪声。通过指定不同的D,可以得到不同的降质情况。例如,当D是恒等函数时,为噪声降质[41]、[42];当D是卷积/平均操作时,为模糊降质[33]、[43];
2025-01-17 11:05:57
917
原创 Model-Based Image Signal Processors via Learnable Dictionaries
数码相机通过其图像信号处理器(ISP)将传感器的RAW数据转换为RGB图像。图像去噪和色彩恒常性等计算摄影任务通常在RAW域中进行,这部分归因于固有的硬件设计,但也因为直接传感器读数所产生的噪声统计具有吸引人的简单性。尽管如此,与丰富多样的RGB数据相比,RAW图像的可用性有限。最近的方法试图通过估计RGB到RAW的映射来弥合这一差距:可解释且可控的手工模型基方法通常需要手动精细调整参数,而端到端可学习的神经网络则需要大量训练数据,有时训练过程复杂,且通常缺乏可解释性和参数控制。
2025-01-17 11:03:22
602
原创 焦点像素损失
为了加速训练并达到良好的性能,小米MMAI团队采用了一种策略,即每个子任务(包括最终的联合优化)都是基于金字塔图像表示进行训练的。最初,模型在小规模图像(64×64)上进行训练,然后逐渐将图像块的分辨率增加到128×128和256×256。鉴于信号退化函数的非均匀影响,观察到的像素高度受影响比例存在不平衡,因此提出了焦点损失(见公式(1))作为解决方案。D(., .)表示恢复后的图像Î与参考图像I之间的标准L范数距离,而γ是一个可调整因子,用于控制惩罚的强度。
2025-01-17 10:58:13
309
原创 Deep RAW Image Super-Resolution 论文浅翻译
本文综述了NTIRE 2024 RAW图像超分辨率挑战赛,重点介绍了所提出的解决方案及结果。在现代图像信号处理(ISP)流程中,RAW图像超分辨率的新方法可能至关重要,然而,与RGB领域相比,这一问题的研究尚不充分。本次挑战赛的目标是将RAW Bayer图像放大2倍,同时考虑噪声和模糊等未知退化因素。挑战赛期间,共有230名参与者注册,其中45名提交了结果。本文在此回顾并提供了前5名提交作品的性能,以此作为当前RAW图像超分辨率领域最先进技术的衡量标准。
2025-01-17 10:57:11
1097
原创 特征去噪-非局部均值
图中标注了特征张量的形状,并进行了相应的重塑(reshaping)或转置(transposing)操作:在这里,H和W分别代表特征图的高度和宽度,我们以256个通道为例进行说明。如果使用了softmax函数,那么它是高斯版本(配合适当的1×1卷积嵌入使用,但在本图中未展示);如果使用了softmax函数,那么它是高斯版本(配合适当的1×1卷积嵌入使用,但在本图中未展示);并且,当去噪操作压制噪声时,同时也会影响图像的真实信号(signal), 残差操作的使用可以帮助保留信号(signal).
2025-01-17 10:49:45
935
原创 实现高效的深盲原始图像恢复
诸如去噪、去模糊和超分辨率等多重低视觉任务通常从RGB图像开始,进一步减少退化现象,从而提高图像质量。然而,由于在图像信号处理(ISP)过程中的转换,在sRGB域中建模这些退化现象变得复杂。尽管这是一个已知问题,但文献中很少有方法直接处理传感器RAW图像。在本文中,我们直接在RAW域中处理图像恢复问题。我们设计了一个新的真实退化管道,用于训练深度盲RAW恢复模型。我们的管道考虑了真实的传感器噪声、运动模糊、相机抖动和其他常见的退化现象。
2024-10-23 16:03:07
1216
原创 FastDVDNet README
GitHub - z-bingo/FastDVDNet: An unoffical implement of FastDVDNet by PyTorch解说 : https://zhuanlan.zhihu.com/p/73286010之前的深度视频去噪算法: DVDnet模型文件在这里发布!TODO 列表:这个repo是一个非官方版本的FastDVDNet:Towards Real-Time Video Denoising Without Explicit Motion Estimation,这个repo
2024-10-11 15:37:11
818
原创 使用带有受限移动区域的无人机进行包装递送Package Delivery Using Drones with Restricted Movement Areas
摘要1 Introduction2 Preliminaries算法
2023-06-07 10:54:28
421
原创 TensoRF-张量辐射场论文笔记
TensoRF-张量辐射场论文笔记_什度学习的博客-优快云博客注释代码: https://github.com/xunull/read-TensoRF官方源码:https://github.com/apchenstu/TensoRF配置清华园pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple pip install -i https://pypi.tuna.tsinghua.edu.cn/simpl
2023-05-18 17:09:50
956
原创 html基础
img 回车 各种标签都可以(eg:p/li/body)table>tr*2>td*3 2行3列表格。dl>dt{我是图片}+dd{我是文字}shift+alt+下键。ul>li{于文文}*3。alt+z rem转化。
2023-03-31 21:34:24
114
原创 Enhanced Deep Residual Networks for Single Image Super-Resolution
其次,现有的SR算法将不同尺度因子的超分辨率视为独立问题,而没有考虑和利用不同尺度之间的相互关系,这些算法需要许多特定尺度的网络,这些网络需要独立训练来处理不同尺度。通过对预处理模块采用较大的内核,我们可以保持特定规模的部分较浅,而在网络的早期阶段则覆盖了较大的接受域。我们不仅利用了每个尺度的学习特征之间的相互关系,而且还提出了一种新的多尺度模型,可以有效地重建不同尺度的高分辨率图像。在图2中,我们比较了来自原始ResNet[9]、SRResNet[14]和我们提出的网络的每个网络模型的构建块。...
2022-08-09 16:28:57
2821
原创 NeRF数据集
Thisdirectorycontainsadatasetofsyntheticallyrenderedimagesthatwereusedin"NeRFRepresentingScenesasNeuralRadianceFieldsforViewSynthesis".Stats+8Scenes+100Trainingimages+100Validationimages+200Testimages+Imagesare800x800StructureSCENE_NAME-
2022-07-20 15:26:20
1397
原创 ShaRF: Shape-conditioned Radiance Fields from a Single View
ShaRF: Shape-conditioned Radiance Fields from a Single ViewAbstract 我们提出了一种方法来估计神经场景表示的对象只给定一个单一的图像。我们的方法的核心是估计物体的几何支架,并将其作为重建底层辐射场的指导。我们的公式是基于生成过程,首先将潜在代码映射到体素化形状voxelized shape,然后将其渲染为图像,对象的外观由第二个潜在代码控制。在推理过程中,我们优化了潜在代码和网络,以拟合一个新对象的测试图像。形状和外观的显式分离允许我们的模型
2022-07-13 13:23:43
478
原创 GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis
Abstract虽然二维生成对抗网络能够实现高分辨率的图像合成,但它们在很大程度上缺乏对三维世界和图像形成过程的理解。因此,它们不能提供对相机视点或物体姿态的精确控制。为了解决这个问题,最近的几种方法利用基于中间体素的表示与可微渲染相结合。然而,现有的方法要么产生较低的图像分辨率,要么在分离相机和场景属性方面出现不足,例如,物体的身份可能随视点而变化。在本文中,我们提出了一个辐射场的生成模型,该模型最近被证明是成功地用于单个场景的新视图合成。与基于体素的表示相比,辐射场并不局限于三维空间的粗糙离散化,但允许
2022-07-02 20:58:48
2209
3
原创 Editing Conditional Radiance Fields
神经辐射场(NeRF)是一种支持高质量视图合成的场景模型,对每个场景进行优化。在本文中,我们探索了允许用户编辑一个类别级的NeRF category-level NeRF-也被称为条件辐射场-训练在一个形状类别上。具体地说,我们介绍了一种将粗糙的二维用户涂鸦传播到三维空间的方法,以修改局部区域的颜色或形状。首先,我们提出了一个条件辐射场,它包含了新的模块化网络组件,包括一个跨对象实例共享的形状分支。观察同一类别的多个实例,我们的模型在没有任何监督的情况下学习底层的部分语义,从而允许将粗糙的2D用户涂鸦传播到
2022-06-29 14:49:22
812
原创 DeepRapper 代码详解
DeepRapperreadme1. Data Preparation2. Training & Generationtraingenerate3. Pretrained Model一、bash train.shtrain.shtrain.pydef main论文解说:DeepRapper 论文readmeDeepRapper: Neural Rap Generation with Rhyme and Rhythm Modeling, by Lanqing Xue, Kaitao Song,
2022-06-07 14:37:14
1322
原创 杭电2022数模B题隐私保护动态规划
题目(1)实际中,很多信息都可以简化为只有两个不同的选项,例如性别、近14天是否出省、有无家族遗传病史、是否绿码等,研究附件中的两组二元数据,保证每个个体的信息都能得到保护,分别给出一个隐藏数据量最少的方案,并建立二元数据表隐私保护的一般数学模型。(2)考虑多元数据表,研究附件中的两组多元数据,给出一个隐藏数据量最少的方案,并建立多元数据隐私保护的一般数学模型。(3)如果个体能够隐藏在一个至少包含p个个体的数据组中,则称该个体得到了p-重保护(p>=2),下图是一个分别有2-重保护和4-重保护的
2022-05-30 18:23:35
1244
1
原创 python安装包、pytorch3d
Read timed out.pip --default-timeout=100 install -U Pillow安装速度慢,清华园pip install torch===1.7.1 -i https://pypi.tuna.tsinghua.edu.cn/simplepip3 install imblearn -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn pymys
2022-05-28 16:32:47
576
原创 ESRGAN: Enhanced 增强的Super-Resolution Generative Adversarial Networks
Abstract.Super-Resolution Generative Adversarial Network (SR-GAN)是一项开创性的工作,能够在单幅超分辨率图像中生成真实的纹理。然而,幻觉中的细节往往伴随着令人不快的伪影unpleasant artifacts。为了进一步提高视觉质量,我们深入研究了SRGAN的三个关键组成部分——网络结构,对抗性损失adversarial loss和感知损失perceptual loss,并对它们进行了改进,得到了增强型EnhancedSRGAN(E...
2022-05-24 17:10:47
3731
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人