自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(54)
  • 收藏
  • 关注

原创 Toward Characteristic-Preserving Image-based Virtual Try-On Network

基于图像的虚拟试穿系统可以让用户在不实际试穿的情况下体验新衣服的效果,这一领域正受到越来越多的研究关注。理想的虚拟试穿系统不仅应该能够将目标服装无缝地变形到最合适的形状,还应该能够很好地保留服装的特征(如纹理、标志、刺绣等)。然而,现有的基于图像的生成方法无法满足这些关键要求,因为它们无法处理输入图像和目标服装之间的大空间错位。为了解决这一问题,本文提出了一种新的可学习的特征保留虚拟试穿网络(CP-VTON)。

2024-10-27 20:40:42 374

翻译 FICE: 基于文本条件的时尚图像编辑与引导生成对抗网络逆过程

FICE的目标是编辑给定的(时尚)图像 I \in {\mathcal{R}}^{3 \times n \times n} ,以符合某些(外观相关的)文本描述 t ,并合成一个相应的输出图像 {I}{f} \in {\mathcal{R}}^{3 \times n \times n} ,尽可能紧密地遵循 t 中表达的语义。在这里,合成过程需要满足以下标准:(1)合成的输出图像 {I}

2024-10-20 19:57:23 165

翻译 按示例绘画:基于示例的图像编辑与扩散模型

语言指导的图像编辑最近取得了巨大成功。在本文中,我们研究示例指导的图像编辑以实现更精确的控制。我们通过利用自监督训练来分离和重新组织源图像和示例图像,达到这一目标。然而,简单的方法将导致明显的融合伪影。我们仔细分析了这一点,并提出了内容瓶颈和强增强,以避免直接复制和粘贴示例图像的简单解决方案。同时,为确保编辑过程的可控性,我们为示例图像设计了一个任意形状的遮罩,并利用无分类器指导来提高与示例图像的相似性。整个框架涉及扩散模型的单一前向传播,无需任何迭代优化。

2024-10-14 09:38:23 110

翻译 SmartBrush:基于扩散模型的文本和形状引导的对象修复

通用图像修复旨在通过借用周围信息来完成损坏的图像,这几乎不会生成新内容。相比之下,多模态修复为修复内容提供了更灵活和有用的控制,例如,可以使用文本提示来描述具有更丰富属性的对象,可以使用掩码来约束修复对象的形状,而不仅仅将其视为缺失区域。我们提出了一种新的基于扩散的模型 SmartBrush,用于使用文本和形状引导完成缺失区域的对象修复。虽然之前的工作如 DALLE-2 和 Stable Diffusion 可以进行文本引导的修复,但它们不支持形状引导,而且倾向于修改生成对象周围的背景纹理。

2024-10-13 16:19:27 209

翻译 BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation and Edi

主题驱动的文本到图像生成模型基于文本提示创建输入主题的新颖呈现。现有的模型存在长时间的微调和难以保持主体保真度的问题。为了克服这些局限性,我们引入了BLIP扩散,这是一种新的主题驱动的图像生成模型,支持多模态控制,使用主题图像和文本提示的输入。与其他主题驱动的生成模型不同,BLIP Diffusion引入了一种新的多模态编码器,该编码器经过预训练以提供主题表示。我们首先按照BLIP-2对多模式编码器进行预训练,以产生与文本对齐的视觉表示。

2024-09-08 16:26:21 162

翻译 Imagic: Text-Based Real Image Editing with Diffusion Models

文本条件图像编辑最近引起了相当人的兴趣。然而目前人多数方法仅限于以下之一:特定的编辑类型(例如,对象叠加、样式转换)、合成生成的图像或需要一个共同对象的多个输入图像。在这篇论文中,我们首次证明了对单个真实图像应用复杂(例如,非刚性)基于文本的语义编辑的能力。例如,我们可以改变图像中一个或多个对象的姿势和构图,同时保其原始特征。我们的方法可以让一只站立的狗坐下,让一只乌展开翅膀等等每个都在其单个高分辨率用户提供的自然图像中。与之前的工作相反,我们提出的方法只需要一个输入图像和一个日标文本(所需的编辑)。

2024-09-01 20:48:17 397 1

翻译 TexFit: Text-Driven Fashion Image Editing with Diffusion Models

时尚图像编辑是为了编辑输入图像,以获得更丰富或独特的视觉服装匹配效果。现有的全局时尚图片编辑方式难以实现丰富及独特的服装搭配效果,而局部时尚图片编辑更符合多样化、个性化的服装搭配需求。局部编辑技术通常依赖于文本和辅助方式(例如,人体姿势、人体关键点、服装草图等)进行图像处理,其中辅助方式有助于定位编辑区域。由于这些辅助方式在实际应用场景中通常涉及额外的工作,因此文本驱动的时尚图像编辑表现出高度的灵活性。

2024-08-23 21:19:57 344

原创 基于沙漏标记的高效三维人体姿态估计框架HoT

HoT是第一个基于 Transformer 的高效三维人体姿态估计的即插即用框架。如下图所示,传统的 VPT 采用了一个 “矩形” 的范式,即在模型的所有层中维持完整长度的 Pose Token,这带来了高昂的计算成本及特征冗余。与传统的 VPT 不同,HoT 先剪枝去除冗余的 Token,再恢复整个序列的 Token(看起来像一个 “沙漏”),使得 Transformer 的中间层中仅保留少量的 Token,从而有效地提升了模型的效率。

2024-06-16 14:19:06 1090

原创 基于细节增强卷积和内容引导注意的单图像去雾

本周主要阅读了文章,DEA-Net:基于细节增强卷积和内容引导注意的单图像去雾。该论文提出了提出了一种细节增强注意力块(DEAB),该模块由一个细节增强卷积(DEConv)和一个内容引导的注意力(CGA)机制组成,使得模型能够更好地保留图像的细节信息,同时又能关注图像中的重要信息,从而达到更好的去雾效果。除此之外,还学习学习了CGA模块的注意力代码模块的学习。本周主要阅读了文章,DEA-Net:基于细节增强卷积和内容引导注意的单图像去雾。

2024-06-06 11:01:02 1111

原创 用于密集预测的多路径视觉Transformer

本周主要阅读了2022CVPR的文章,用于密集预测的多路径视觉Transformer,在文章中讲解了当前Transformer对于多尺度的密集预测的困难之处,并提出了一种方法多路径视觉Transformer方法来解决,其主要思路就是通过嵌入CNN对多路径的物体进行特征提取,最后将特征重新聚合得到一种多路径的视觉密集预测的方法。在最终测试下,都取得比较好的成绩。另外我还对Transformer的相关知识以及代码进行了复习。

2024-06-02 13:15:19 755

原创 用于视频识别的快慢网络

本周主要阅读了CVPR文章, SlowFast Networks for Video Recognition。SlowFast模型网络是一种用于视频识别任务的深度学习模型。它的核心思想是将两种不同帧率的路径(慢途径和快途径)结合在一起,以便更好地捕捉视频中的时空特征。一个慢途径和一个快途径。慢途径以较低的帧率运行,负责处理低帧率下的信息,这意味着它具有较低的时间分辨率;而快途径以较高的帧率运行,负责处理高帧率下的信息,具有较高的时间分辨率。除了阅读文献之外,还学习了yoloV5框架的代码知识。

2024-05-26 13:46:06 1004

原创 在视频中使用时间卷积和半监督训练进行三维人体姿态估计

本周主要阅读了CVPR文章, 3D human pose estimation in video with temporal convolutions and semi-supervised training。这是一种基于二维关键点和扩张时间卷积的全卷积模型,用于有效估计视频中的三维人体姿态,除此之外,还提出了一种名为“反投影”的半监督训练方法,该方法能够利用未标记的视频数据来增强模型的学习效果,这一过程不仅提高了模型对未标记数据的利用效率,而且显著提升了学习性能。

2024-05-19 20:17:05 1167

原创 高效三维人体姿态估计框架HoT

HoT是第一个基于 Transformer 的高效三维人体姿态估计的即插即用框架。如下图所示,传统的 VPT 采用了一个 “矩形” 的范式,即在模型的所有层中维持完整长度的 Pose Token,这带来了高昂的计算成本及特征冗余。与传统的 VPT 不同,HoT 先剪枝去除冗余的 Token,再恢复整个序列的 Token(看起来像一个 “沙漏”),使得 Transformer 的中间层中仅保留少量的 Token,从而有效地提升了模型的效率。

2024-04-28 15:21:51 1188

原创 YOLO世界:实时开放词汇对象检测

本周主要阅读了CVPR文章,YOLO-World: Real-Time Open-Vocabulary Object Detection。是一种先进的实时开放词汇对象检测系统,它基于流行的 YOLO(You Only Look Once)对象检测框架。

2024-04-21 18:22:44 1562

原创 3D场景编辑方法——CustomNeRF

本周主要阅读了CVPR文章,Customize your NeRF: Adaptive Source Driven 3D Scene Editing via Local-Global lterative Training。一种将文本描述和参考图像统一为编辑提示的CustomNeRF框架,可以通过微调预训练的扩散模型将参考图像中包含的特定视觉主体V∗嵌入到混合提示中,从而满足一般化和定制化的3D场景编辑要求。除此之外,还学习了简单的Transformer代码的学习。

2024-04-13 14:36:08 794

原创 Learning To Count Everything

本周主要阅读了CVPR文章,Learning To Count Everything。文章提出了一种名为FamNet的新型网络结构,是卷积神经网络(CNN)的改进版本。可以将FAMNet与CNN或其他类型的神经网络结合,形成更复杂的深度学习模型,以处理更复杂的图像识别任务。FamNet利用提供的示例对象和查询图像之间的相似性来估计密度图,从而实现物体计数。。除此之外,还学习学习了RNN代码的学习。循环神经网络(Recurrent Neural Network,RNN)是一种深度学习模型,用于处理序列数据。

2024-03-30 13:50:12 2011

原创 基于骨骼的动作识别的行动结构图卷积网络

本周主要阅读了CVPR文章,基于骨骼的动作识别的行动结构图卷积网络。文章提出了一种名为AS-GCN的新型网络结构,用于处理基于骨架数据的人体动作识别问题。AS-GCN通过引入编码器-解码结构的A-link推理模块,可以直接从动作中捕捉到动作特定的潜在依赖关系。AS-GCN还扩展了现有的骨架图,以表示更高阶的依赖关系,即结构链接。通过将这两种类型的链接合并到一个通用的骨架图中。除此之外,还学习学习了U-net代码的学习。本周主要阅读了CVPR文章,基于骨骼的动作识别的行动结构图卷积网络。

2024-03-23 15:30:04 1342

原创 带有超令牌采样的视觉转换器

本周主要阅读了CVPR文章,带有超令牌采样的视觉转换器。该论文提出了一个名为SViT的方法,这是一种基于Transformer的模型,SViT主要由以下几个关键组件构成:卷积位置嵌入(CPE)、卷积FFN(ConvFFN)及空间注意力(STA)模块,通过在Transformer中引入卷积层,使得模型能够更好地利用局部信息,同时保持了Transformer对全局信息的建模能力。除此之外,还学习学习了StokenAttention的注意力模块代码的学习。

2024-03-17 13:28:03 1491

原创 文献阅读:DEA-Net:基于细节增强卷积和内容引导注意的单图像去雾

本周主要阅读了文章,DEA-Net:基于细节增强卷积和内容引导注意的单图像去雾。该论文提出了提出了一种细节增强注意力块(DEAB),该模块由一个细节增强卷积(DEConv)和一个内容引导的注意力(CGA)机制组成,使得模型能够更好地保留图像的细节信息,同时又能关注图像中的重要信息,从而达到更好的去雾效果。除此之外,还学习学习了CGA模块的注意力代码模块的学习。本周主要阅读了文章,DEA-Net:基于细节增强卷积和内容引导注意的单图像去雾。

2024-03-09 22:58:18 9576 4

原创 基于场景文字知识挖掘的细粒度图像识别算法

本周主要阅读了2022CVPR的文章,基于场景文字知识挖掘的细粒度图像识别算法,该论文提出了一种通过挖掘场景文本背后的语义来增强分类模型理解图像内容的方法,该方法利用场景文字作为关键词,到Wikipedia知识库中检索出相关的知识,并获取其特征表达,和图像视觉特征进行融合理解,而并非仅仅利用场景文字的表面语义信息,这种方法能够更好地理解文字语义并不非常直观的内容,从而提升图像识别的性能。除此之外,我还学习复习了RNN的相关知识,并通过其实现过程来进行代码的学习。

2024-02-04 18:05:50 1147

原创 一种通过增强的面部边界实现精确面部表示的多级人脸超分辨率

本周主要阅读了2020CVPR的文章,一种通过增强的面部边界实现精确面部表示的多级人脸超分辨率,该论文提出了一种创新的MSFSR模型,旨在提高人脸超分辨率的精度和稳定性。通过多阶段处理和面部边界的增强,提高超分辨率模型对人脸的精细特征的重建能力,该模型能够更好地捕捉和处理人脸的精细特征和表情变化,从而在人脸超分辨率任务中取得更好的性能。除此之外,我还学习复习了LSTM的相关知识,并通过其实现过程来进行代码的学习。

2024-01-27 03:59:09 1051

原创 具有运动模糊的大规模场景的混合神经绘制

本周的学习内容主要是以阅读文献为基础,在文献中了解前沿知识。这次共阅读具有运动模糊的大规模场景的混合神经绘制,了解移动运动模糊的神经辐射场中的问题,以及了解文中提出的视点依赖归一化方法的工作原理。此外还学习了解了YOLO模型,了解其大致的工作原理,与先前学习的卷积神经网络模型进行对比,并开始学习MMdetection的相关代码知识。YOLO是一种目标检测模型,全称You Only Look Once,属于目标检测模型的一种。目标检测是计算机视觉中相对简单的任务,旨在在一幅图像中找到特定的物体。

2024-01-21 16:39:47 889

原创 神经辐射场(NeRFs)的研究进展

本周主要阅读了2023 Computer Vision and Pattern Recognition的文章,神经辐射场(NeRFs)的研究进展,文章回顾了基本的NeRF框架,并探讨了迄今为止取得的一些最新进展。如PixelNeRF, RegNeRF,Mip-NeRF, Raw NeRF,NeRF in-the-Wild等相关NeRF技术。自2020年NeRF框架开发以来,已经进行了许多变体和扩展,大大提高了其性能和能力。该模型能够实现最先进的结果和逼真的渲染,为这种框架在视图合成和其他领域提供了许多机会。

2024-01-13 22:06:00 2480

原创 1/7文章

本周主要阅读了2023CVPR的文章,具有运动模糊的大规模场景的混合神经绘制,文章提出了一种混合神经渲染模型,用于合成高质量、视角一致的新视角图像。通过结合基于图像的表示和神经3D表示,以及模拟模糊效果,该模型能够有效地处理大型场景中的复杂结构和细节,并减轻运动模糊等缺陷对渲染图像质量的影响。另外我还对VAE的相关知识进行了复习。

2024-01-07 18:51:42 872

原创 12/31

本周主要阅读了2022CVPR的文章,用于密集预测的多路径视觉Transformer,在文章中讲解了当前Transformer对于多尺度的密集预测的困难之处,并提出了一种方法多路径视觉Transformer方法来解决,其主要思路就是通过嵌入CNN对多路径的物体进行特征提取,最后将特征重新聚合得到一种多路径的视觉密集预测的方法。在最终测试下,都取得比较好的成绩。另外我还对Transformer的相关知识进行了复习。

2023-12-31 13:40:24 854

原创 YOLO模型

本周的学习内容主要是以阅读文献为基础,在文献中了解前沿知识。这次共阅读使用卷积神经网络和区域卷积神经网络(R-CNN)的肺部异常的检测与分类方法,了解了它们在图像识别的优势,以及对医疗诊断贡献。此外还学习了解了YOLO模型,了解其大致的工作原理,与先前学习的卷积神经网络模型进行对比。“You Only Look Once”是一种使用卷积神经网络进行目标检测的算法。YOLO是其中速度较快的物体检测算法之一。虽然它不是最准确的物体检测算法,但是在需要实时检测并且准确度不需要过高的情况下,它是一个很好的选择。

2023-12-24 19:46:40 1287

原创 文献阅读:重新审视池化:你的感受野不是最理想的

本周主要阅读了2022CVPR的文章,重新审视池化:你的感受野不是最理想的,在文章中讲解了当前用于卷积和池化运算的内核大小和步长,会影响感受野的配置,使其不理想,于是提出了一种动态优化池方法来解决,其主要思路就是这是一个可学习的调整大小模块,可以替代标准的调整大小操作,在最终的几个测试下,都取得比较好的成绩。除此之外,我还学习复习了GAN的相关知识,用于了解其与Stable Diffusion之间差别。

2023-12-17 19:54:05 902

原创 用于流式传输自由视点视频的神经残余辐射场

本周主要阅读了2023CVPR的文章,用于流式传输自由视点视频的神经残余辐射场,在文章中讲解了一种基于神经残余辐射场实现流式传输自由视点视频的方法,其主要思路就是建模时空特征空间中相邻时间戳之间的残差信息,将动作信息以及残差信息作为数据供给编码以及解码,在体积小的情况下实现质量和速度上均优秀的结果。除此之外,我还学习了解了傅里叶变换与卷积网络之间的相互理解,了解其是如何对卷积网络是如何与傅里叶变换产生联系的。

2023-12-09 22:47:37 1007

原创 傅里叶变换

本周主要阅读了2023CVPR的文章,人类视频作为机器人学习资料的可供性,在文章中讲解了当前机器人学习人类行为的困难之处,并提出了一种方法视觉机器⼈桥(VRB)方法来解决,其主要思路就是以接触点和接触后轨迹来构建一个机器人能学习的模型,在最终的几个场景测试下,都取得比较好的成绩。除此之外,我还学习了解了傅里叶变换,了解其是如何对函数进行分解的,从傅里叶级数到时域和频域等等相关概念知识,开拓了视野。

2023-12-03 19:38:46 912

原创 用于密集预测的多路径视觉Transformer

本周主要阅读了2022CVPR的文章,用于密集预测的多路径视觉Transformer,在文章中讲解了当前Transformer对于多尺度的密集预测的困难之处,并提出了一种方法多路径视觉Transformer方法来解决,其主要思路就是通过嵌入CNN对多路径的物体进行特征提取,最后将特征重新聚合得到一种多路径的视觉密集预测的方法。在最终测试下,都取得比较好的成绩。另外我还对Transformer的相关知识进行了复习。

2023-11-26 11:40:20 944

原创 人类视频作为机器人学习资料的可供性+ResNet验证码验证

本周主要阅读了2023CVPR的文章,人类视频作为机器人学习资料的可供性,在文章中讲解了当前机器人学习人类行为的困难之处,并提出了一种方法视觉机器⼈桥(VRB)方法来解决,其主要思路就是以接触点和接触后轨迹来构建一个机器人能学习的模型,在最终的几个场景测试下,都取得比较好的成绩。另外我还完成了ResNet模型对验证码识别的训练和测试任务,相比CNN,其性能提升巨大,侧面验证了其解决了网络消失的问题。

2023-11-19 14:30:33 268

原创 CNN模型训练--验证码辨认的代码实践

在本周,主要是动手实现上周复习的卷积神经网络,代码实现验证码辨认,整个实现过程主要分为几个步骤,收集训练数据、构建网络结构、训练模型、测试模型。在其中获取数据方面,是利用电脑自动生成,这样就能快速拥有标注过的数据。网络结构则是三层卷积层以及两层全连接层。经过几次训练可以得到结论,随着数据量的增加,模型辨认的准确度越来越高。提示:以下是本篇文章正文内容,下面案例可供参考。

2023-11-12 20:45:51 184

原创 CNN知识回顾

因为机器学习课程的相关要求,本周的主要回顾了卷积神经网络相关知识,回顾卷积神经网络改进的结构残差网络以及密集连接网络。对于卷积神经网络,详细地了解其结构的构造,以及其各层的功能。对于残差网络和密集连接网络,则是了解了它们在卷积神经网络上改造内容,以及改进的思路。CNN的全称是"Convolutional Neural Network"(卷积神经网络)。其中神经网络是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)结构和功能的数学模型或计算模型。

2023-11-05 19:18:53 198

原创 密集连接的卷积网络

本周主要阅读了CVPR 2017的经典论文,密集连接的卷积网络。因为前段时间对残差学习网络的学习,了解到其对网络整体更新的优化作用,学习到了卷积神经网络创新取决于其结构创新,于是在这次学习了也是结构创新的网络结构密集连接型的网络结构,在论文中了解到了其结构提出思路、整体网络结构及结构细节优化,在阅读完后对其结构优点作出了总结。提示:以下是本篇文章正文内容,下面案例可供参考。

2023-10-29 18:16:00 477 1

原创 超分辨率图像处理与残差网络

本周学习内容主要从超分辨率图像处理的方向进行入手,通过阅读文献,Real-world single image super-resolution:A brief review 来了解超分辨率技术的相关概念,学习该技术的处理过程的框架,从而形成一个比较完整的认识。在对该技术有了一定的了解后,看了两篇文献。

2023-10-22 21:40:50 597 1

原创 用于图像识别的深度残差学习的文献阅读以及Tensorboard画图学习

本周的学习内容主要分为两部分,文献阅读和tensorboard画图实践。其中文献为深度残差学习,文中提出了残差学习的思路与方法,有效地解决了因为网络深度增加导致的网络退化,学习到了残差学习解决网络退化和冗余层的问题细节。在使用tensorboard画图实践上,学习使用scalar画了简单的折线图以及CNN的损失函数图形,除此之外还使用graph画出来CNN的结构图。

2023-10-13 22:58:18 226 1

原创 CNN论文阅读与拓展学习

本周的学习内容主要是以阅读文献为基础,在文献中了解前沿知识。这次共阅读了两篇文献,主要内容均为CNN模型及其改进变体R-CNN,Fast-CNN以及Faster-CNN,了解了它们在图像识别的优势,以及对医疗诊断、植物病变识别方面的贡献。除此之外,还额外了解了R-CNN框架的相关细节,比如它的选择搜索算法、边框回归等。提示:以下是本篇文章正文内容,下面案例可供参考。

2023-10-08 18:57:55 346 1

原创 机器学习课程学习周报十七

在本次的机器学习课程中学习的内容主要是Self-Supervised Learning,在这其中包含着许多的模型,以BERT以及GPT最为著名,这节的学习便是以BERT为主。在BERT的学习中,学习到了其大致的工作原理,在四种任务中的工作流程。此外还了解了BERT的Adapator的适应性。在GPT的学习中学习中,了解到庞大的参数量、训练任务目标以及相应的训练方式。

2023-10-01 18:25:32 401

原创 机器学习课程学习周报十六

在本次的机器学习课程中学习的内容主要分类两部分,VAE模型以及Flow-based生成模型。在对VAE模型学习过程中,了解VAE与Auto-encoder之间存在着差异,相比之下也有着很大的提升;对VAE的工作原理以及其与Gaussian Mixture Model的关系有了大致了解。在Flow-based生成模型中,学习了其与真实数据之间的模仿过程,对模型的优化与VAE一样也是通过不断优化Likelihood的过程,其中对Jocobite矩阵计算的优化更是优化过程的重中之重。

2023-09-24 18:02:44 418 1

原创 机器学习课程学习周报十五

在本次的机器学习课程中学习的内容主要集中在GAN的训练当中,GAN的训练主要包括对两部分的训练,即Generator和Discriminator,这两部分是相辅相成的,需要不断对其进行调整优化,也就是如何对公式V(G , D)进行优化。需要注意的是,对GAN模型进行优化的过程中会出现不小的问题,为了解决这些问题,需要对GAN进行改进得到改良版WGAN和WGAN-GP。此外还了解了GAN加入卷积卷积神经网络、条件的DCGAN和CGAN。提示:以下是本篇文章正文内容,下面案例可供参考。

2023-09-16 23:51:18 520 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除