KeepThinking！-优快云博客

原创 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

Retrieval-Augmented Generation是一种针对知识密集型NLP任务的混合架构，由预训练生成模型与稠密检索技术结合演变而来，旨在解决传统语言模型依赖参数化知识存储导致的知识固化、领域局限性及事实性错误等问题。其框架分为两阶段：首先通过神经检索器从外部知识库动态召回相关文档，再利用生成模型融合检索内容生成答案，支持“RAG-Sequence”和“RAG-Token”两种模式。

2025-04-13 18:15:00 593

原创 Hierarchical Temporal Transformer for 3D Hand Pose Estimation and ActionRecognition from Egocentric

Hierarchical Temporal Transformer 提出的分层时序变换器基于 Transformer 架构改进，通过分层时序编码和双分支设计解决了现有方法在长时序依赖建模和多粒度特征融合上的不足，实现了从第一视角 RGB 视频中同时进行 3D 手部姿态估计和动作识别。该模型采用空间--时序双分支结构，结合局部窗口注意力和全局跨帧注意力，分别优化手部关节细节和动作动态表征，并在FPHA和H2O数据集上达到SOTA性能，为第一视角人机交互提供了高效的统一框架。

2025-04-06 18:15:00 650 1

原创 Video Transformer Network

Video Transformer Network 是基于Transformer架构改进的视频理解模型，旨在解决传统3D卷积神经网络在长距离依赖建模和计算效率方面的不足。通过引入自注意力机制，VTN能够有效捕捉视频序列中的全局时空依赖关系，同时显著提升计算效率。该模型采用视频特征提取、时空位置编码、Transformer编码器和任务特定头的框架，在视频分类、动作识别等任务上取得了SOTA的性能，成为视频理解领域的重要进展。

2025-03-30 18:15:00 604 1

原创 Spatial Temporal Graph Convolutional Networks for Skeleton-Based ActionRecognition

Spatial Temporal Graph Convolutional Networks 是一种基于骨架的动作识别模型，由传统的图卷积网络改进而来，通过引入时空图卷积操作解决了先前工作中对时空信息建模不足的问题。该模型将骨架序列建模为时空图，利用空间图卷积捕捉关节间的空间关系，并通过时间卷积建模时间动态，从而有效提取动作的时空特征。

2025-03-23 18:15:00 535

原创 Temporal Segment Networks

Temporal Segment Networks 是对传统双流网络的改进，旨在解决其在长时间跨度动作建模和计算效率方面的局限性。传统双流网络通过分别处理RGB图像和光流信息来捕捉空间和时间特征，但其只能建模短时间跨度的动作，且光流计算耗时且计算成本高。TSN 创新性地引入了分段采样策略，将视频均匀分成多个片段，并从每个片段中随机采样一帧进行训练和推理，从而有效地捕捉了长时间跨度的动作信息，同时大幅减少了计算开销。

2025-03-16 14:00:00 760

原创 VIBE: Video Inference for Human Body Pose and Shape Estimation

VIBE是一种基于视频的3D人体姿态和形状估计方法，改进了先前工作HMR中存在的时序不一致性和动态运动捕捉不足等问题。通过引入时序编码器（如：GRU、Transformer）和对抗性训练，VIBE能够从视频序列中生成平滑且逼真的3D人体网格。其模型结构包括特征提取器、时序编码器、人体网格回归器和对抗性判别器，利用AMASS数据集进行预训练，显著提升了性能。VIBE在3DPW、Human3.6M等数据集上达到了当时的最先进水平，并且在长视频序列中表现出色。

2025-03-09 18:15:00 644

原创 OpenPose

OpenPose是由卡内基梅隆大学提出的基于CNN和PAFs技术的人体姿态估计模型，是对早期CPM等模型的改进。它通过PAFs解决了多人姿态估计中关键点检测与图像中的个体相关联的难题，采用多阶段CNN框架逐步优化结果，实现了高精度、鲁棒的多人姿态估计。OpenPose在COCO和MPII等数据集上取得了领先性能，支持人体、手部、面部和动物姿态估计，广泛应用于动作识别、运动分析等领域。

2025-03-02 18:15:00 876

原创 Stacked Hourglass Networks for Human Pose Estimation

Stacked Hourglass Networks是用于人体姿态估计的深度学习模型，基于编码器--解码器结构，通过堆叠多个沙漏模块实现多尺度特征提取和逐步优化预测。该模型解决了传统方法在复杂背景、遮挡和尺度变化下关节定位精度不足的问题，借鉴了 U-Net 的跳跃连接和 ResNet 的残差连接思想，并引入中间监督机制提升训练效果。堆叠沙漏网络在 MPII、FLIC 和 LSP 等公开数据集上取得了当时的最优性能，其优势在于能够同时捕捉局部细节和全局上下文，逐步优化预测结果。

2025-02-23 18:15:00 1523

原创 DeepPose

DeepPose是首个将CNN应用于姿态估计任务的模型。该模型在传统姿态估计方法的基础上，通过端到端的方式直接从图像中回归出人体关键点的二维坐标，避免了复杂的特征工程。DeepPose将姿态估计问题建模为一个回归问题，利用CNN提取图像特征，并通过全连接层直接预测关键点坐标。模型还引入了级联回归策略，通过多阶段优化逐步细化关键点位置，显著提高了预测精度。DeepPose在LSP和FLIC数据集上取得了当时最优的性能，为后续基于深度学习的人体姿态估计方法奠定了基础。

2025-02-16 18:15:00 627

原创 SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

SegFormer是一种基于演变而来的语义分割模型，通过引入分层Transformer编码器、重叠Patch Merging操作和轻量级全MLP解码器，解决了ViT在语义分割任务中计算复杂度高、内存消耗大以及细节信息丢失的问题。该模型在ADE20K、Cityscapes和COCO-Stuff等多个数据集上取得了领先的性能，同时具有结构简单、计算高效和泛化能力强的优势，为基于Transformer的密集预测任务提供了新的解决方案。

2025-02-09 18:15:00 691

原创 U-Net

U-Net是基于FCN的原理进行改进，以适应小样本的分割任务。U-Net的核心结构由对称的编码器-解码器组成。编码器通过卷积和池化操作逐步提取图像的抽象特征并降低分辨率，从而捕捉全局语义信息；解码器通过上采样和卷积操作逐步恢复分辨率，并结合编码器提供的低层特征图重建目标的细节信息，从而实现精确分割。U型结构和跳跃连接的设计有效解决了深层网络中的细节丢失问题。U-Net通过数据增强技术，能够在有限的标注数据上进行高效训练。该网络模型结构简单且高效，能够在保证分割精度的同时减少计算量。

2025-01-26 18:15:00 871

原创 SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation

SegNet是在FCN网络模型的基础上，修改VGG-16网络得到的语义分割网络，通过存储最大池化索引以保留边界信息、去掉全连接层并使用批量归一化等手段，解决了边界划分不清、计算量大等问题，降低了内存和存储需求，加快了推理速度，提升了像素级分类精度，实现了高内存效率、轻量模型、高分割精度和快速推理。在CamVid数据集上准确率超83%，在遥感图像建筑物分割等任务中性能更优，满足实时性检测需求。

2025-01-18 18:15:00 997

原创 Fully Convolutional Networks for Semantic Segmentation

FCN是深度学习在语义分割领域的开山之作。FCN在CNN的基础上，将全连接层替换为卷积层，使网络能够接受任意尺寸的输入图像，并通过反卷积层对最后一个卷积层的特征图进行上采样，恢复到输入图像相同的尺寸，从而实现像素级别的分类。FCN结合不同深度层结果的跳级结构，确保了鲁棒性和精确性。在PASCAL VOC数据集和NYUDv2数据集上达到了SOTA，显著提高了语义分割的性能。

2025-01-12 17:08:11 1109

原创 DETRs with Hybrid Matching（H-DETR）

DETRs with Hybrid Matching针对DETR一对一匹配导致的正样本训练效率低下，并导致大量查询未被有效利用的问题。提出了一种混合匹配策略，在训练过程中结合原始的一对一匹配分支和辅助的一对多匹配分支。该方法允许每个真实标签与多个查询进行匹配，从而增加了正样本的数量，提高了训练效率。在预测过程中，只使用原始的一对一匹配分支，既保持了DETR端到端的优点和相同的推理效率，同时也提高了模型的精度。

2025-01-05 18:15:00 1109

原创 Mask R-CNN

Mask R-CNN是在Faster R-CNN的基础上进行改进的目标检测和实例分割网络。Faster R-CNN主要用于目标检测，输出对象的边界框和类别标签，而Mask R-CNN在Faster R-CNN的基础上增加了像素级分割的能力，能够输出对象的像素级掩码。Mask R-CNN使用了ROI Align层，解决了Faster R-CNN在边界像素对齐方面的问题，从而提高了检测和分割的精度。ROI Align通过双线性插值。

2024-12-28 21:43:57 1180

原创 YOLO-World:Real-Time Open-Vocabulary Object Detection

YOLO-World通过视觉-语言建模，以及在大规模数据集上的预训练，增强了YOLO-World的开放词汇检测能力，展现出强大的零镜头能力。YOLO-World遵循标准的YOLO架构，并利用预训练的CLIP文本编码器来编码输入文本。该模型提出了可重参数化视觉-语言路径聚合网络（RepVL-PAN），以连接文本特征和图像特征，实现更好的视觉语义表示。该模型在LVIS数据集上以52.0FPS达到35.4AP，在准确性和速度方面都超过了许多最先进的方法。RepVL-PAN。

2024-12-22 17:53:47 1608 2

原创 General Object Foundation Model for Images and Videos at Scale

GLEE是一个用于定位和识别图像和视频中对象的对象级基础模型。通过统一的框架，GLEE实现了在开放世界场景中对各种对象感知任务的检测、分割、跟踪、定位和识别。采用一种连贯的学习策略，GLEE从具有不同监督级别的多样化数据源中获取知识，以形成通用的对象表示，在零样本转移到新数据和任务上表现出色。GLEE使用了图像编码器、文本编码器和视觉提示器来处理多模态输入，使得能够同时解决各种以对象为中心的下游任务，同时保持最先进的性能。

2024-12-15 18:00:00 1045

原创 Instance Diffusion

Instance Diffusion是一种使用扩散模型进行实例条件图像生成的方法，如下图所示：论文作者考虑了多种不同的、灵活的方式来指定对象的位置，例如一个单点、涂鸦、边界框和一个实例掩码。由于获取大规模的配对（文本，图像）数据比（实例，图像）数据要容易得多，于是使用了一个预先训练好的文本到图像的U-Net模型，并且保持其冻结状态。然后，添加了作者提出的可学习的UniFusion模块来处理额外的每个实例的条件。UniFusion模块将实例条件与主干网络融合，并调节其特征以实现实例条件图像生成。

2024-12-10 20:39:04 1173 1

原创第二十四周周报：扩散生成模型在图像上的发展过程

本周总结了之前学习的相关论文，即扩散生成模型在图像领域的发展历程、基本原理及其广泛应用。从早期的VAE到DDPM，再到Stable Diffusion和High-fidelity Person-centric Subject-to-Image Synthesis等最新进展，本文详细探讨了扩散生成模型在图像生成、文本指导图像生成、图像高保真度合成等方面的基本原理和应用。1引言随着深度学习的不断发展，人工智能生成内容成为了一个热门话题，特别是扩散生成模型作为一种新兴的生成模型，在图像生成领域取得了显著进展。

2024-12-08 18:15:00 1620

原创第二十三周周报：High-fidelity Person-centric Subject-to-Image Synthesis

本周阅读了一篇2024年CVPR的关于高保真度、以人物为中心的图像合成方法的论文：High-fidelity Person-centric Subject-to-Image Synthesis。该论文提出了一种名为Face-diffuser的生成管道，旨在解决现有方法在训练不平衡和质量妥协问题上的不足，通过独立微调两个专门的预训练扩散模型来实现人物和语义场景的合成。作者：Yibin Wang, Weizhong Zhang, Jianwei Zheng, Cheng Jin。

2024-12-01 20:06:28 764

原创第二十二周周报：Stable Diffusion

Stable Diffusion是一种深度学习模型，专门设计用于生成高质量的图像。该模型结合了扩散模型和Transformer架构的特点，通过文本处理、初始化、扩散过程、U-Net生成最终的图像。本篇博客将着重介绍SD模型生成过程使用到的技术，并通过最新的模型进行图像生成展示。本周的学习到此结束，下周将会继续扩散生成模型有关内容的学习。

2024-11-24 14:06:41 1301

原创第二十一周周报：DDPM

Denoising Diffusion Probabilistic Models（DDPM），即去噪扩散概率模型，是一种基于扩散过程的生成模型。该模型被广泛应用于自然图像和语音合成等领域。本篇博客主要介绍DDPM模型的工作原理，即前向过程（扩散过程）和反向过程（逆扩散过程）。并通过代码展示模型训练生成的图像结果。本周的学习到此结束，下周将会进行Stable Diffusion，以及LoRA微调方法的学习。

2024-11-17 18:15:00 805

原创第二十周周报：回顾篇

本周主要对前几周学过的知识进行了复习，主要包括深度学习的基础知识，图像分类的核心网络模型，以及目标检测的重要网络模型。本篇博客主要写了各个板块的主体内容，也是对各个板块的整合，从图像分类到目标检测，由易到难。本周的复习到此结束，下周将开始新板块的学习----扩散生成模型。

2024-11-10 18:15:00 1114

原创第十九周周报：Detection Transformer

Detection Transformer是一种基于Transformer架构的目标检测模型，它革新了传统目标检测的方法。传统目标检测模型通常依赖于手工设计的特征提取器和复杂的后处理步骤，而DETR则采用端到端的方式，直接预测目标物体的类别和边界框。DETR简化了目标检测流程，提高了检测精度，并实现了对多尺度目标的鲁棒检测。本篇博客将详细讲解DETR目标检测模型，以及附上PyTorch运行结果。

2024-11-03 17:30:00 988

原创第十八周周报：CenterNet

本周我主要学习了CenterNet，该网络模型是一种创新的目标检测框架。与传统的基于锚框或区域候选的目标检测方法不同，CenterNet采用了基于关键点的检测策略。该方法的核心思想是直接预测目标物体的中心点及其相关的属性，从而实现了更为简洁和高效的目标检测。本篇博客会介绍其核心网络组成部分，以及附上PyTorch实现代码。本周的学习到此结束，在期中复习上耽搁了些时间，下周将会继续经典网络模型的学习。

2024-10-27 18:15:00 693

原创第十七周周报：YOLO-v2、YOLO-v3

本周主要学习了YOLO-v2、YOLO-v3两个目标检测模型，同时也是YOLO系列的巅峰之作，在后期作者依然对YOLO进行不断地优化，使其仍然是目前最优秀的目标检测网络之一。本篇博客主要介绍YOLO-v2和YOLO-v3做了哪些改进使该模型拥有更好的效果。最后，复现了YOLO-v3的PyTorch代码，实现了对图片的目标检测任务。本周的学习到此结束，下周将会学习CenterNet，以及复习之前学习的内容。1+80%29%5D。

2024-10-20 18:15:00 667

原创第十六周周报：单发的目标检测系列

本周主要学习单阶段的目标检测算法，如SSD、YOLO模型。详细学习了每个模型的原理，以及SSD和YOLO模型之间的异同。在本篇博客中将展示SSD的PyTorch实现代码，以及在第三章会介绍一下Termius的使用，便于连接服务器。本周的学习到此结束，下周将学习YOLO系列更新最大的几个版本，以及目前使用最为广泛的版本，并成功跑通其代码。1%29+20%3D30。

2024-10-11 20:04:48 797

原创第十五周周报：R-CNN系列

本周主要学习了R-CNN的整个系列，详细学习了R-CNN、Fast R-CNN、Faster R-CNN的原理。本篇博客将会详细解释上述3个模型的异同，以及通过哪些方面的改进使初版R-CNN的检测速度越来越快的。同时会侧重介绍每个模型的特有模块，Faster R-CNN会有PyTorch代码实现。本周的学习到此结束，下周将继续SSD和YOLO模型的学习。

2024-10-06 18:00:00 932

原创第十四周周报：Transformer for CV

本篇博客介绍了采用类似于卷积核的移动窗口进行图像特征提取的Swin Transformer网络模型，详细学习了该模型每一个组成模块的网络结构和参数传递过程。博客第二章介绍了不使用卷积和自注意力模块的MLP-Mixer模型，阐述了在全使用全连接的情况下会拥有哪些优势。在每一章的最后都会附上复现的PyTorch代码。本周的学习到此结束，目前图像领域仍是Transformer思想为主导的模型霸榜，所以下周将会继续有关Transformer for Vision的学习。

2024-09-29 18:15:00 972

原创第十三周周报：Vision Transformer

紧接上一篇博客，Transformer在语言模型上有着巨大贡献，通过全自注意力的方式将大语言模型推向了一个新高度。既然自注意力方式这么出圈，那是否能应用到计算机视觉方向呢？传统的视觉方向通过卷积提取特征，能否也能向语言类模型一样通过自注意力提取特征呢？本周就跟着李沐老师的课程进一步学习ViT（Vision Transformer）模型，以解决上述疑惑。course。

2024-09-22 18:15:00 1672

原创第十二周周报：Transformer

本周跟着李沐老师的课程详细学习了Transformer的原理，明白了编码器和解码器的工作原理，以及数据从输入到输出整个过程的参数传递。同时跟着视频讲解，也理解了Transformer为什么会选择多头自注意力机制，以及解码器中的掩码自注意力机制。本博客会根据自己的理解逐一编写，后会附上Transformer的PyTorch代码。该模型整体架构如下图所示：该网络大致流程如下：数据输入经过Embedding后，该网络会进行一个位置编码；然后，将编码后的数据传入编码器，经过多头自注意力，再经过前馈神经网络；

2024-09-15 18:30:00 921

原创第十一周周报：卷积神经网络、服务器

本周对卷积神经网络进行了更加深入的学习，尤其是ResNet和Res2Net在今后的学习和实践中会重点使用，本周也将其论文进行了深入的学习，了解了整个网络的流程，以及层与层之间参数的传递情况。本周的剩余时间，还学习了服务器的使用，通过SSH在PyCharm直接调用远程服务器资源进行训练，这有利于我后期的学习。本周的学习到此结束，下周将继续卷积神经网络的学习，以及Transformer更加深入的学习。

2024-09-08 17:03:38 1365 2

原创第十周周报：动手深度学习（五）

本周跟着李沐老师的课程完成了深度学习PyTorch的基础内容学习。主要学习了区域卷积神经网络的基础概念，通过不同方法提高CNN的识别准确率和效率；了解了语义分割的概念，以及在进行语义分割训练时用到的数据集VOCdevkit；还通过卷积层进行特征提取实现了两张图片之间的风格迁移。下文将依次进行介绍，并附上完整代码。本周的学习到此结束，下周将系统学习Docker的使用，以及CNN更加深入的理论学习。

2024-09-01 18:30:00 1023

原创第九周周报：动手深度学习（四）

本周跟着李沐老师的动手深度学习课程，主要学习了在深度学习训练模型过程中涉及到计算性能的一些操作方法，以及关于计算机视觉方面的基础知识。本篇博客会通过PyTorch对上述内容进行代码实现。本周的学习到此结束，下周将会继续计算机视觉模型的学习，以及服务器的使用，用以今后大模型的训练。

2024-08-25 18:15:00 842

原创第八周周报：动手深度学习（三）

本周跟着李沐老师的动手深度学习课程，主要学习了使用PyTorch实现深度学习模型中的优化算法。下文将详细归纳整个优化算法对于深度学习的重要性、优化算法整个不断创新优化的过程，以及每类优化算法的对应代码实现和运行结果。本周的学习到此结束，下周将会继续跟着李沐老师的课程学习在模型训练过程中的计算机性能和计算机视觉方面的基础操作。

2024-08-18 18:15:00 949

原创第七周周报：动手深度学习（二）

本周跟着李沐老师的动手深度学习课程，主要学习了使用PyTorch实现深度学习的计算和卷积神经网络。详细学习了深度学习模型的构造、参数的访问初始化、自定义网络层等，以及卷积神经网络的整个发展历程，从最简单的二维卷积网络，到深度卷积网络，再到后面的一些变型的卷积网络。每一次的创新，都有助于卷积神经网络更好的拟合数据，减轻训练难度，得到更好的测试效果。

2024-08-11 18:15:00 1020

原创第六周周报：动手深度学习（一）

本周跟着李沐老师的动手深度学习课程，主要学习了使用PyTorch工具对深度学习进行集成性操作，本周的内容主要涉及对tensor数据的操作、自动求导、线性回归模型的实现、softmax回归模型的实现，以及如何解决过拟合问题，最后还有kaggle实战房价预测。本周的学习内容主要围绕代码展开，本博客也会附上完整代码和数据。本周的学习到此结束，初步形成了用PyTorch编写深度学习算法的模型，还需要通过长时间的练习来熟练掌握编写流程。下周将继续学习用PyTorch进行深度学习的计算，以及CNN的编写。b。

2024-08-04 18:30:00 913

空空如也

空空如也