L-含光承影-优快云博客

原创【第三十二周】CLIP 论文阅读笔记

本篇博客介绍了CLIP（Contrastive Language-Image Pre-training），这是OpenAI于2021年提出的多模态预训练模型，其核心思想是通过对比学习将图像与文本映射到统一的语义空间，从而摆脱传统视觉模型对固定类别标签的依赖，实现零样本（zero-shot）迁移。

2025-04-20 17:32:35 715 1

原创【第三十一周】ViT 论文阅读笔记

本篇博客介绍了Vision Transformer（ViT），这是一种突破性的图像分类模型，其核心思想是将图像分割为固定大小的块（如16×16像素），并将这些块序列化后输入标准的Transformer架构，从而替代传统卷积神经网络（CNN）对视觉特征的局部归纳偏置依赖。

2025-04-13 19:40:21 968 1

原创【第三十周】：VTN（Video Transformer Network）

本篇博客介绍了Video Transformer Network（VTN），这是一种基于Transformer的视频识别框架，旨在替代传统依赖3D卷积网络的方法，通过全局时序建模实现高效的全视频分析。其核心思想是模块化分离时空特征学习：针对3D卷积计算效率低、长时序依赖建模困难的问题，VTN采用2D骨干网络（如ResNet、ViT）逐帧提取空间特征，结合Longformer的滑动窗口注意力机制，以线性复杂度（O(n)）建模时间维度，并通过[CLS]标记的全局注意力捕捉关键帧信息。

2025-04-06 11:31:18 625

原创【第二十九周】：LSTA：用于以自我为中心的动作识别的长短期注意力机制

这篇博客介绍了LSTA（Long Short-Term Attention），这是一种针对第一人称视角动作识别设计的循环神经网络单元，旨在解决视频分析中时空特征不连续及关键区域跟踪模糊的问题。其核心创新在于双池化机制：通过注意力池化动态筛选输入特征中的关键区域，并结合跨帧注意力记忆实现平滑跟踪；同时利用输出池化过滤冗余记忆，增强时空特征表达。LSTA采用双流架构（RGB流捕捉静态物体，光流流编码动态运动），并通过跨模态偏置调整在门控阶段实现双流早期交互（如光流引导RGB关注动态区域），而非传统后期融合。

2025-03-30 19:57:47 1043

原创【第二十八周】：Temporal Segment Networks：用于视频动作识别的时间分段网络

本篇博客介绍了时间分段网络（Temporal Segment Network, TSN），这是一种针对视频动作识别的高效深度学习框架，其核心思想是通过分段稀疏采样和全局时序建模解决传统方法在长时程动作建模中的计算冗余与局部片段覆盖不足问题。TSN将视频均匀划分为多个时间段，每个段随机抽取一个短片段，利用共享权重的卷积网络提取片段特征，并通过聚合函数（如平均池化、Top-K池化）融合全局时序信息生成视频级预测。

2025-03-22 23:14:12 622

原创【第二十七周】：AlphaPose：全身区域多人实时位姿估计与跟踪

本篇博客介绍了AlphaPose，这是一种基于自顶向下范式的多人姿态估计框架，针对传统方法在检测框定位偏差、热图量化误差及冗余姿态抑制等核心问题，提出多阶段优化方案：首先设计对称空间变换网络（SSTN），通过仿射变换动态校正检测框偏移，解决因定位不准导致的关键点中心化误差；其次，提出对称积分关键点回归（SIKR），引入幅值对称梯度（ASG）优化热图到坐标的转换过程，显著降低手部、足部等精细部位的量化误差；

2025-03-16 21:02:13 995

原创【第二十六周】：HRNet：用于人体姿态估计的深度高分辨率表征学习

HRNet作为高分辨率特征保持网络的代表，通过多阶段并行分支持续交互的工作机制，在人体姿态估计、图像分割等密集预测任务中实现了像素级精准定位。其核心在于全程保持高分辨率，逐步增加低分辨率分支，每个阶段通过跨分辨率连接（上/下采样后特征叠加）实现多尺度信息融合，最终将各分支特征统一上采样至高分辨率输出，避免了传统网络因反复下采样导致的空间信息丢失。

2025-03-09 21:00:58 964

原创【第二十五周】：DeepPose：通过深度神经网络实现人体姿态估计

这篇博客介绍了DeepPose，这是首个基于深度神经网络（DNN）的人体姿态估计框架，其核心思想是通过端到端回归直接预测人体关节坐标，摒弃了传统方法依赖手工特征和图形模型的局限性。针对传统算法在遮挡、复杂背景和小关节定位中的不足，DeepPose提出级联回归的方法：初始阶段利用全局低分辨率图像预测粗略关节点位置，后续级联阶段通过高分辨率局部图像块逐步修正误差，实现从粗到细的优化。为消除尺度差异，DeepPose对输入图像使用了归一化，且对级联网络进行独立训练，每个阶段参数分离以适配不同的输入尺度。

2025-03-02 19:25:28 1110

原创第二十四周：OpenPose：使用部分亲和场的实时多人2D姿态估计

本篇博客介绍了一种实时多人2D姿态估计框架——OpenPose，其核心思想是通过自底向上的全局关联策略，解决传统方法在多人场景下面临的计算效率低与关键点误匹配问题。针对多人姿态中肢体拓扑关联的复杂性，提出部分亲和场（PAF）技术，以向量场代表关键点间的空间方向关系，结合双分支卷积网络同步输出关键点置信图与PAF场，通过路径积分与二分图匹配算法实现跨个体的精准聚类；针对小尺度关键点检测精度不足，设计多阶段级联网络，逐层细化预测结果以提升遮挡区域的鲁棒性。

2025-02-23 20:43:07 948

原创【第二十三周】SAM（Segment Anything）

本篇博客介绍了Segment Anything Model (SAM)，这是Meta AI团队于2023年提出的通用图像分割基础模型，旨在通过用户提供的交互式提示（如点、框、文本等）实现任意目标的零样本分割。SAM的核心思想是将分割任务转化为提示驱动的生成问题，通过大规模预训练和高效架构设计实现跨领域泛化能力。

2025-02-16 18:39:12 1555 1

原创【第二十二周】语义分割：Deeplab V3

这篇博客介绍了 DeepLab V3 模型，这是一种基于深度学习的语义分割模型，旨在解决图像中多尺度物体的像素级分类问题。其核心思想是通过空洞卷积（Atrous Convolution）在不降低分辨率的前提下扩大感受野，并结合改进的ASPP模块（Atrous Spatial Pyramid Pooling）捕获多尺度上下文信息，有效解决了传统方法中因分辨率损失和上下文不足导致的分割精度下降问题。该模型在PASCAL VOC等数据集上达到了当时的SOTA性能，广泛应用于自动驾驶、医学影像等领域。

2025-02-09 21:11:31 997

原创第二十一周：Mask R-CNN

本篇博客介绍了Mask R-CNN，这是一种用于实例分割的模型，能够在目标检测的基础上实现像素级分割。其核心思想是在Faster R-CNN框架中引入一个并行的Mask分支，同时完成目标检测（分类和边界框回归）和实例分割（像素级掩码生成）。针对Faster R-CNN中RoIPool导致的特征图与原始图像空间不对齐问题，Mask R-CNN提出了RoIAlign技术，通过双线性插值消除量化误差，显著提升了分割精度。此外，Mask分支采用全卷积网络（FCN）结构，能够高效地生成目标的二值掩码。

2025-01-26 21:17:30 786

原创【第二十周】U-Net：用于生物图像分割的卷积神经网络

U-NetU-Net采用对称的编码器-解码器设计，编码器通过卷积和池化操作提取特征，解码器通过上采样和卷积操作恢复分辨率。这种架构允许U-Net进行端到端训练，并有效地从有限的数据集中学习。U-Net最初用于医学图像分割（如细胞分割、肿瘤检测），但其高效的架构和强大的性能使其迅速扩展到其他领域，包括：卫星图像分析、工业检测、自然图像处理等。尽管存在一些局限性，但通过不断的改进和优化，U-Net及其变体在图像分割任务中仍然具有广泛的应用前景。

2025-01-19 21:04:37 1648 3

原创第十九周：SSD（Single Shot MultiBox Detector）

本篇博客介绍了 SSD（Single Shot MultiBox Detector），这是一种基于全卷积网络的单阶段目标检测模型。与双阶段检测模型（如 Faster R-CNN）相比，SSD 在保持较高检测精度的同时，显著提升了检测速度，使其更适用于实时检测任务。SSD 的核心优势在于其多尺度检测机制：通过在多个特征图的每个位置上设置不同尺度和长宽比的先验框（Default Boxes），SSD 能够充分利用低层特征图的小感受野检测小目标，以及高层特征图的大感受野检测大目标，从而有效提升小目标的检测效果。

2025-01-12 19:14:19 1241

原创第十八周：Faster R-CNN论文阅读

本篇博客介绍了 Faster R-CNN，这是一种双阶段的目标检测网络，是对 Fast R-CNN 的改进。为了解决 Fast R-CNN 中，计算效率低和区域推荐算法耗时长的问题，Faster R-CNN 提出了区域推荐的方法：Region Proposal Network（RPN），这种方法代替了传统的区域推荐算法。RPN 与 Fast R-CNN 共享卷积特征，减少了计算量，大幅提高了目标检测的速度，准确率也达到了新的高度。

2025-01-05 20:58:09 1179 1

原创第十七周：Fast R-CNN论文阅读

这篇博客介绍了Fast R-CNN，这是一种双阶段的目标检测模型，是对RCNN的改进。RCNN由于对每个候选区域单独进行特征提取，导致了大量的重复计算。为了解决这一问题，Fast R-CNN引入了更为高效的策略。它首先对整张图片进行卷积操作，得到特征图，然后根据候选区域在原图中的空间位置信息，在特征图上进行RoI Pooling，从而避免了重复计算。RoI Pooling层根据预定义的网格尺寸对候选区域特征图进行划分，然后在每个网格内执行最大池化操作，最终生成固定尺寸的RoI特征向量。

2024-12-29 20:57:24 883 1

原创第十六周：RCNN论文阅读

本周学习了RCNN，其目标检测具有里程碑式的意义。RCNN首次将深度学习网络应用到目标检测任务上，使目标检测的效果得到了明显的提升。其采用的选择性搜索生成候选区域、CNN 提取特征、SVM 分类及边界框回归修正等技术组合，形成了 Two-Stage 目标检测算法的经典框架，后续的 Fast R-CNN、Faster R-CNN 等模型都是在此基础上改进和发展而来。

2024-12-22 20:40:02 619

原创第十五周：目标检测基础

本文从数据维度的角度探讨了三维卷积操作，并通过具体实例说明了目标定位和特征点检测的原理及其基本方法。此外，文章还介绍了基于滑动窗口的目标检测算法，并分析了其效率低下的原因，即独立检测导致了大量重复计算。针对这一问题，本文介绍了一种利用卷积实现滑动窗口的方法。该方法用了卷积的思想，通过共享多个卷积结果，有效避免了重复计算，从而提高了计算效率。本周复习了三维卷积在计算上的方法，扫清了多维度卷积核卷积后的结果中通道数的疑问；

2024-12-15 21:33:30 763

原创第十四周：初识多模态

本文介绍了多模态大模型的基本概念，并对其关键技术进行了讲解。文章对近年来几种主要的视觉-语言大模型进行了概述，展示了多模态视觉-语言大模型的发展现状。本周主要是拓展知识面，对多模态大模型有了初步的认识，学习了一些主要的视觉-语言大模型的大致结构，了解了视觉-语言大模型的发展。

2024-12-08 19:05:42 1082

原创第十三周：深度学习基础

本文探讨了序列到序列（seq2seq）模型的应用范围，并详细阐述了Transformer模型的架构基础。文章中不仅对Transformer模型的各个组成部分进行了具体阐述，还介绍了其训练和推理过程。特别是，文章重点介绍了编码器和解码器的计算步骤和方法。本周学习了 Transformer 的基本结构，并理解了其训练和推理的基本步骤，也了解了masked self-attention 和 cross attention 的基本计算方法。

2024-12-01 20:52:25 583

原创第十二周：深度学习基础

本文首先阐述了多头注意力（Multi-Head Attention）的基本原理和计算方法，然后探讨了自注意力（Self-Attention）机制在多种任务中的应用，并与传统的神经网络结构——卷积神经网络（CNN）和循环神经网络（RNN）进行了比较。此外，文章还通过一个具体的案例——爬取微博评论，详细说明了网络爬虫的基本步骤和实施过程。

2024-11-24 16:10:51 597

原创第十一周：深度学习基础

本文介绍了集长短期记忆网络（LSTM）的变体，有门控制单元(GRU)、“peephole connection LSTM”和耦合忘记门与输入门的LSTM。此外，文章还介绍了自注意力机制，并详细阐述了其计算流程。本周继续学习了LSTM的几个变体，深化了对LSTM的理解，还学习了自注意力机制在序列任务中的作用以及其工作原理，还通过矩阵的角度加深了理解。下周将继续学习多头注意力机制。

2024-11-17 21:10:27 741

原创第十周：深度学习基础

本文阐述了双向循环神经网络（BRNN）的基本原理，并通过单向循环神经网络（RNN）来说明BRNN的优势。文章介绍了BRNN的计算流程，并探讨了如何构建深层RNN。此外，本文通过一个实例，介绍了在PyTorch框架中实现word2vec的基本步骤和方法。本周完成了前几周学习RNN时遗留的任务：双向RNN的学习，并学习了如何构建深层的RNN以处理更复杂的任务。此外，通过一个例子对前面所学的word2vec进行了实践学习，了解了pytorch中word2vec所需的模块、方法及步骤。

2024-11-10 20:45:46 668

原创第九周：深度学习基础

本文详细介绍了负采样技术的具体实施方法，并与上周讨论的Skip-Gram模型进行了计算效率的对比分析，从而突出了负采样在计算效率方面的优势。此外，文章还深入解释了Sigmoid函数和Softmax函数，并探讨了它们在不同应用场景下的差异。最后，本文介绍了一个简单的循环神经网络（RNN）分类任务案例，并阐述了其实现流程和关键步骤。本周主要学习了上周遗留的任务：负采样，学习了softmax与sigmoid函数的具体细节和二者的区别。对于前几周学习的RNN，也理解了一个较简单的实例，字符级别的RNN名字分类。

2024-11-03 20:52:15 680

m0_59510256的博客