
论文解读
文章平均质量分 71
upDiff
专注于计算机视觉和深度学习领域,8年+AI项目实战经验。善于将复杂的概念简化为易于理解的形式,并提供清晰的示例代码和运行结果,帮助大家速掌握相关技术。
展开
-
[zotero]Ubuntu搭建WebDAV网盘
zotero, ubuntu搭建webdav网盘原创 2024-11-03 10:55:28 · 769 阅读 · 0 评论 -
CVPR2023新作:文本监督下语义分割
(4): 通过在 PASCAL VOC 2012、PASCAL Context 和 COCO 数据集上的实验,证明本文提出的方法性能比现有最先进的方法更好,而且无需额外的标注和监督信息即可实现无监督的文本监督下的语义分割。论文的方法在没有额外的标注和监督信息的情况下实现了文本监督下的语义分割任务,可以为文本监督下的语义分割领域提出更有效的方法。(1): 本文提出的文本监督下的语义分割框架可以在无需额外标注和监督信息的情况下实现语义分割任务,为文本监督下的语义分割领域提供了一种更有效的方法。原创 2023-10-25 06:56:27 · 527 阅读 · 0 评论 -
CVPR2023新作:基于组合空时位移的视频修复
(1): 本文提出了一种轻量级的视频修复框架,利用组合空时位移块来捕捉多帧间的对应关系,并扩展有效感受野。其中,组合空时位移块通过局部位移和空间注意机制对输入进行建模,并通过平均池化和最大池化来聚合特征,并利用反卷积恢复图像细节。(2): 该算法分为两个关键步骤:(i) 异质帧间信息聚合;其中,第一步采用组合空时位移块实现,可以有效地扩展有效感受野;(3): 文中提到,该方法可以节省75%的计算成本。实验结果表明,该算法在视频去模糊和视频降噪两个任务上均优于之前的最先进方法,证明了该方法的有效性和实用性。原创 2023-10-25 06:55:17 · 567 阅读 · 0 评论 -
CVPR2023新作:源数据集对迁移学习性能的影响以及相应的解决方案
本文提出的方法可以定位迁移学习的脆弱性,检测数据泄漏和源数据集中的误导性例子等问题,并且能够自动提取目标数据集的细粒度子群体。(3): 本文提出了一种基于数据的框架,用于衡量和分析源数据集的组成对迁移学习性能的影响。通过基于数据的框架,能够定位迁移学习中的脆弱性和数据泄漏问题,并自动提取目标数据集的细粒度子群体,从而提高迁移学习的效果。(2): 创新点:本文的创新点在于关注源数据集的构成对迁移学习的重要性,并提出了一个基于数据的框架来衡量和分析源数据集的影响。或扫描文章底部⬇️二维码。原创 2023-07-31 07:52:42 · 862 阅读 · 0 评论 -
CVPR2023新作:考虑3D一致性的人脸关键点检测
(3):本文提出了一种新的多视角一致的学习策略,构建了一个基于合成数据的人脸关键点检测数据集,并提出了一种3D感知模块,利用此模块可以提高现有基于学习的人脸关键点检测算法的准确性。(3): 本文的贡献在于提出了一种基于合成数据的多视角一致训练方法,以及一种3D感知模块,这些方法可以提高现有基于学习的人脸关键点检测算法的准确性,并具有较广的适用性。(2): 创新点:本文提出了基于合成数据和多视角一致训练的方法,避免了现有方法在3D一致性方面的缺陷,同时提出了一种3D感知模块,处理获得了更加准确的人脸关键点;原创 2023-07-27 08:09:52 · 621 阅读 · 0 评论 -
CVPR2023新作:3D感知的AI换脸算法
(2): 创新点:该方法将2D人脸图像投影到3D生成模型的潜在空间中进行交换,利用3D人脸的强几何和纹理先验,实现了3D感知的人脸交换,克服了传统方法中2D人脸姿态的局限性。该论文提出的3D感知的人脸交换方法,利用3D人脸的强几何和纹理先验,将2D人脸投影到3D生成模型的潜在空间中。在权威的FaceForensics++数据集上的评测中,该方法相比现有最好的2D方法提高了3.13%的身份相似度,维持了相似的质量,并且生成图像的间距离相对于真实3D人脸的平均间距离降低了56%以上。原创 2023-07-26 23:11:05 · 1580 阅读 · 0 评论 -
CVPR2023新作:pix2pix3D
(3)将3D神经场引入条件生成模型,将大量双眼标签和monocular视图放入训练生成器中,使模型能够对每个3D点分配标签、所对应的色彩和密度。(4)本文提出的pix2pix3D模型能够在给定2D条件习得3D对象的结构学直观的编辑控制。还提供了相应互动系统。(2)过去方法纯粹在2D层面操作,没有对应3D架构,这限制了模型的可控性。本文基于现有资源,进一步扩展条件生成模型的特性,将3D融入图像生成。(1)本文研究背景是现有的图像到图像翻译方法只在2D层面上操作,没能正确推理内容的潜在3D结构。原创 2023-07-25 07:44:19 · 871 阅读 · 0 评论 -
CVPR2023新作:从2D图像生成个性化3D卡通人物
(2): 过去的方法大多是基于已知的3D模型和图像对生成3D人物,因此需要大量的3D模型和参数注释,且生成的卡通人物质量不高。(2): 该方法通过调整相机参数分布和纹理质量的优化方法和变形建模技术,将2D的GAN生成器的知识转移到3D生成器上,从而实现对3D卡通人物的生成和编辑。(3): 本文提出一种基于调整相机参数分布、纹理质量的优化方法和变形建模技术,可以将2D的GAN生成器的知识转到3D生成器上,从而实现对3D卡通人物的生成和编辑。(1): 本文提出了一种从2D图像生成个性化3D卡通人物的方法。原创 2023-07-25 07:37:55 · 393 阅读 · 0 评论 -
CVPR2023新作:3D视频物体检测
(1): 本文研究的是3D视频物体检测,探索长期时间上的视觉对应优化。(3): 本文提出了一个端到端的优化目标检测器BA-Det,它实现了可学习的物体中心时空对应关系和特征度量型物体绑定调整,针对动态物体和静态物体对应关系引入了不同的约束。结果表明,BA-Det算法具有更好的性能,不仅可以检测静态物体,而且可以处理动态物体,并在3D检测任务上取得了最先进的水平。(4): 在大量的实验中,BA-Det算法的成功应用使得其在相应的3D检测任务上取得了最先进的水平,并且在瓶颈部位的时间、空间参数提升也非常显著。原创 2023-07-25 07:35:57 · 728 阅读 · 0 评论 -
CVPR2023新作:3D场景的视频循环算法
(2): 创新点:本文针对3D场景提出了一种稀疏3D视频表达方式,即多瓦片视频,并通过时间重定向算法实现了循环损失,使得算法能够实现3D视频循环播放。研究者们通过采用视频时间重定向算法的循环损失,在3D场景中实现循环播放。(3): 本文为解决3D场景的异步循环问题提出了一种新的稀疏3D视频表达方式 —— 多瓦片视频,并在此基础上提出了两阶段乃至于实现视频循环所需的各个步骤。(1): 本研究的意义在于创新性地提出了一种可以处理3D场景的视频循环算法,实现了基于完全异步的多视角二维视频的3D循环。原创 2023-07-25 07:34:06 · 343 阅读 · 0 评论 -
CVPR2023新作:3D空间多模态知识积累与场景图预测
(2): 创新点: 本文的创新点在于将物理空间的层次结构引入深度神经网络,利用空间的语义和清晰的模式来处理复杂的3D场景。(1): 本文的方法旨在通过将物理空间的层次结构引入深度神经网络,利用空间的语义和空间排列的清晰模式来解决处理具有物理连接、密集布置、尺寸变化和丰富关系的部分扫描对象的3D场景的挑战。(3): 本文提出了一种利用外部知识基础的方法,通过积累上下文化的视觉内容和文本事实构建3D空间多模态知识图,同时提出了一个利用3D空间知识的场景图预测模块来约束关系的语义空间。原创 2023-07-25 07:32:13 · 358 阅读 · 1 评论 -
CVPR2023新作:恶劣天气下点云语义分割
通过提出一种新的人造数据集和域随机化技术,本文提出的方法在恶劣天气条件下的语义分割任务中具有state-of-the-art的性能。(2):现有的点云数据集都是在正常天气下采集的,缺乏针对恶劣条件下的点云语义分割。(2): 创新点:本文提出了一种新的人造数据集SemanticSTF和一种域随机化技术,增加了数据集的差异性,提高了模型在恶劣天气下的泛化能力。该技术通过改变点云的几何颜色并对其嵌入进行聚合,从而可以增加不同天气条件下的数据集的差异性,提高模型在恶劣天气下的泛化性能。原创 2023-07-25 07:27:55 · 744 阅读 · 0 评论 -
CVPR2023新作:3D点云配准--3D Registration with Maximal Cliques
(3): 本文提出了一种3D Registration with Maximal Cliques (MAC) 方法,主要步骤包括构建兼容性图,寻找最大团集合,针对团结合对点云位姿猜想并通过SVD算法求解,选取最佳猜想执行配准。(1): 本文提出了一种基于最大团的3D点云配准方法,称为MAC,该方法通过构建兼容性图和寻找最大团集合来提高配准的精度。(2): 构建兼容性图:通过计算两组3D点云之间的关联度,以及利用最大团理论的优势,建立兼容性图,将关联性强的3D点云分为一组。原创 2023-07-25 07:24:14 · 1407 阅读 · 0 评论 -
CVPR2023新作:三维神经场生成模型
(4): 本文在 ShapeNet 数据集上进行了实验,取得了高质量、多样性的三维场生成结果,并比先前的三维扩散模型和其他三维生成方法表现更好。实验证明了本文方法的有效性。(3): 本文提出了一种新的三维神经场生成模型,该模型基于已有的二维扩散模型,并通过将三维场转换为轴对齐三面的二维特征平面,使二维扩散模型可以直接进行三维图像的生成。(1): 本文提出了一种新的三维神经场生成模型,基于已有的二维扩散模型,并通过将三维场转换为轴对齐三面的二维特征平面,使二维扩散模型可以直接进行三维图像的生成。原创 2023-07-25 07:19:49 · 186 阅读 · 0 评论 -
CVPR2023新作:三维场景的线条映射
该方法改进了线条的定位和匹配方法,利用了线条之间的多种几何约束,如共面、平行、垂直等约束,从而推断线条的空间位置,并优化求解线条的3D坐标。(1): 本文的意义在于提出了一种基于线条的高效准确的三维重建方法,可以无缝与现有的SfM方法集成使用,适用于室内场景和城市景观,为视觉定位和场景分析的应用提供了有力支持。(2): 本文在实验评估中,比较了本文方法与其他方法在3D线条重建、视觉定位和捆绑调整等任务上的性能,结果表明本文方法在多种情况下表现出较好的性能,广泛适用于室内场景和城市景观的三维重建。原创 2023-07-25 07:18:24 · 196 阅读 · 0 评论 -
CVPR2023新作:3D人体网格估计
(2): 创新点:本文采用虚拟标记的中间表示来处理人体网格估计问题,该方法不仅弥补了传统骨架方法的局限性,还能够更准确地重建人体真实形状的网格;工作量:本文采用了机器学习方法来学习虚拟标记和3D网格的生成模型,在训练过程中进行了数据增强和正则化,但该方法的实现较为简单,具有一定的易用性和快速性。(1): 本文的意义在于提出了一种新的处理人体网格估计问题的方法,采用虚拟标记的中间表示来重建真实形状的网格,方法创新性强,能够在多样性身体形态方面实现精确重建。(1):本文旨在解决3D人体网格估计的问题。原创 2023-07-23 22:08:08 · 717 阅读 · 0 评论 -
CVPR2023新作:在点云中无监督地学习人体关键点
在实验中,作者将GC-KPL方法与其他基于监督学习和无监督学习的方法进行比较,并在Waymo Open Dataset数据集上进行了验证实验。结果表明,GC-KPL方法可以达到和监督学习方法相当的结果,并且在few-shot learning方面表现出较好的泛化能力。(2): GC-KPL方法包括两个阶段。第二个阶段,采用一系列的微调方法和增强方法对训练得到的模型进行优化,以提高模型的泛化能力和准确性。(1): 本文提出了一个基于几何一致性的无监督学习方法,名为GC-KPL,用于在点云中学习人体关键点。原创 2023-07-23 22:06:43 · 451 阅读 · 1 评论 -
CVPR2023新作:自然语言描述下的3D形状语义定位
然而,本文仅在少量的数据集上进行了实验,需要在不同数据集上进一步验证和优化其方法。(1): 本文提出了一种文本输入下的3D形状语义定位方法,命名为3D Highlighter,使用了一个神经场对网格表面上的点进行编码,将输入文本信息与预训练的CLIP编码器融合,最终使用输出的概率权重对输入的3D形状进行着色。(3): 本文提出了一种文本输入下的语义本地化方法,使用了一个神经场对网格表面上的点进行编码,并通过预训练的CLIP编码器获取输入文本的信息,最终使用输出的概率权重对输入3D形状进行着色。原创 2023-07-23 22:05:56 · 182 阅读 · 0 评论 -
CVPR2023新作:基于面部对称性先验的三维生成对抗网络反演方法
为了提高未观察到的视角的纹理保真度,可以从深度引导的3D变形中获得伪标签,本文还设计了用于过滤不对称情况下优化的冲突区域的约束。然而,在实际应用过程中,伪辅助视图中可能存在冲突内容,为了避免这种情况,我们采用特定的加权策略,通过计算不同视角的高斯函数来适应权重的变化。第一阶段,引入面部对称性先验,使用镜像图像获取的伪辅助视图,设计了一个优化框架,获得粗略的几何形状。(4): 本文提出的方法在3D人脸重建方面取得了良好的性能,可以获得一致的视角和良好结构的几何形状,并在未观察到的视角中实现了高保真度的纹理。原创 2023-07-23 22:04:49 · 690 阅读 · 0 评论 -
CVPR2023新作:从多视角图像中学习3D概念并进行推理
在性能方面,作者在数据集上获得了良好的性能,但在20%的问题上仍无法回答,表明现有问题的挑战性。(3): 本文的研究方法是通过在 Habitat 模拟器中使用一个能够主动移动和捕捉 RGB 图像的代理体来收集数据,然后提出一个新的三维概念学习和推理框架,并将不同组件通过神经场、预训练的视觉-语言模型和神经推理运算符进行无缝组合,实现对数据的处理。(1): 本研究的意义在于提出了从多视角图像中学习3D概念并进行推理的任务,建立了一个大型数据集3DMV-VQA,为深入探究3D推理提供了基础。原创 2023-07-23 22:03:34 · 370 阅读 · 0 评论 -
CVPR2023新作:从单张图像合成视频
我们发现,将现有的2D图像动画和3D摄影方法简单组合会导致明显的问题,这使得我们意识到在3D空间中表示和动画场景提供了这项任务的一种自然解决方案。条件生成器用于将点云映射到生成的图像中,而重建器通过将生成的图像重新映射回起始的点云来确保重建的点云与原始点云保持一致。在生成的3D场景流中,我们使用基于权重的匹配方法来估计每个像素的权重,以确保更准确地估计每个像素的3D位置。本文的研究背景是希望提出一种方法,能够从单张图像中合成包含场景动画和相机运动的视频,让静态图像也能够有3D的效果。原创 2023-07-23 22:00:31 · 459 阅读 · 0 评论 -
CVPR2023新作:夜间物体检测
(2):过去的方法包括基于对抗学习的方法和基于学生-教师框架的方法,但这些方法在小尺度和低光下的物体检测中存在错误传递问题。(3):本文的研究方法是一个两阶段一致性培训的无监督领域适应网络(2PCNet),其中学习分两个阶段。(4):本文在公开数据集上的实验显示,2PCNet优于先前的无监督领域自适应算法,相对于目标数据的有监督模型提高了20%的检测性能。(4): 本文在两个无监督领域自适应目标检测数据集上进行了实验,结果显示2PCNet的性能比之前的算法更好,并且相对于有监督模型提高了20%的检测性能。原创 2023-07-23 21:58:25 · 637 阅读 · 1 评论 -
CVPR2023新作:深度学习模型微调新范式
LoRand在目标检测、语义分割和实例分割等任务上作为微调的代替方法,不仅能保持原始backbone的参数不变,提高参数共享率,而且使用LoRand方法只训练预训练backbone参数的1%至3%,就能获得可比甚至更好的性能。(3):本文提出 LoRand 的方法,在保持原始backbone参数不变的同时,使用低秩合成生成微小的适配器结构,从而实现高参数共享。在适配器的参数中,LoRand 采用低秩合成方法,生成微小的适配器结构并共享参数,从而保持原始backbone的参数不变,提高模型参数的共享率。原创 2023-07-23 21:56:19 · 503 阅读 · 0 评论 -
熬夜爆肝整理CVPR2023 1000+论文,拿走不谢
后续不定期分享ICCV、ECCV、AAAI、ICML等顶会论文总结和精讲,关注我,不迷路😊。原创 2023-06-20 07:47:48 · 267 阅读 · 0 评论 -
CVPR2022新作:P图不会,深度学习来帮忙,基于GAN逆映射的图像编辑(中)
GAN逆映射(GAN Inversion)实际上是逆向思维的极佳范式。简单来说,以往将编码z通过生成器合成图像;现在是求真实图像的编码,期望在特征空间的修改最终映射为对图像语义的修改,比如将人脸图像的属性进行修改(表情变为微笑、戴上眼镜等)。论文回顾这篇论文全名为"Style Transformer for Image Inversion and Editing",模型训练后可以一键修改人脸的各种属性(表情、头发、眼睛等)前置知识讲解这篇论文涉及到了GAN逆映射(GAN In原创 2022-04-20 07:27:25 · 4933 阅读 · 2 评论 -
CVPR2022新作:P图不会,深度学习来帮忙:基于GAN逆映射的图像编辑(上)
导语人脸图像编辑广泛应用于图像后期处理中,通常使用PS工具通过多个步骤来完成。手动完成人像的后期编辑非常耗时,同时对工具的娴熟运用会有较高的学习门槛。下面让我们看下如何用AI一键修图。本文效果这篇论文全名为"Style Transformer for Image Inversion and Editing",由华东师范大学、上海统计与数据科学重点实验室、华中科技大学的多位研究员共同完成。下图为本论文实现的图像编辑效果:1)表情转为微笑2)性别互换3)戴眼镜代码原创 2022-04-19 07:23:42 · 3785 阅读 · 0 评论 -
CVPR2022场景文字识别新作SwinTextSpotter
导语场景文本定位旨在识别自然图像中的整个单词或句子的文本位置,由于其在自动驾驶、智能导航等领域的广泛应用,最近受到越来越多的关注。背景介绍目前自然场景文字识别技术应用广泛,例如拍照翻译,自动驾驶,图像检索等。其中,自然场景文字定位是指对场景图像中所有文本的精确定位,由于文本存在多种变体(颜色、大小、宽高比、字体、方向、光照条件和背景等),因此自然场景中精准的文字定位是非常具有挑战性的。本文效果这篇论文全名为"SwinTextSpotter: Scene Text Spotting v原创 2022-04-17 22:59:19 · 5206 阅读 · 6 评论