自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 【第三十二周】CLIP 论文阅读笔记

本篇博客介绍了CLIP(Contrastive Language-Image Pre-training),这是OpenAI于2021年提出的多模态预训练模型,其核心思想是通过对比学习将图像与文本映射到统一的语义空间,从而摆脱传统视觉模型对固定类别标签的依赖,实现零样本(zero-shot)迁移。

2025-04-20 17:32:35 715 1

原创 【第三十一周】ViT 论文阅读笔记

本篇博客介绍了Vision Transformer(ViT),这是一种突破性的图像分类模型,其核心思想是将图像分割为固定大小的块(如16×16像素),并将这些块序列化后输入标准的Transformer架构,从而替代传统卷积神经网络(CNN)对视觉特征的局部归纳偏置依赖。

2025-04-13 19:40:21 968 1

原创 【第三十周】:VTN(Video Transformer Network)

本篇博客介绍了Video Transformer Network(VTN),这是一种基于Transformer的视频识别框架,旨在替代传统依赖3D卷积网络的方法,通过全局时序建模实现高效的全视频分析。其核心思想是模块化分离时空特征学习:针对3D卷积计算效率低、长时序依赖建模困难的问题,VTN采用2D骨干网络(如ResNet、ViT)逐帧提取空间特征,结合Longformer的滑动窗口注意力机制,以线性复杂度(O(n))建模时间维度,并通过[CLS]标记的全局注意力捕捉关键帧信息。

2025-04-06 11:31:18 625

原创 【第二十九周】:LSTA:用于以自我为中心的动作识别的长短期注意力机制

这篇博客介绍了LSTA(Long Short-Term Attention),这是一种针对第一人称视角动作识别设计的循环神经网络单元,旨在解决视频分析中时空特征不连续及关键区域跟踪模糊的问题。其核心创新在于双池化机制:通过注意力池化动态筛选输入特征中的关键区域,并结合跨帧注意力记忆实现平滑跟踪;同时利用输出池化过滤冗余记忆,增强时空特征表达。LSTA采用双流架构(RGB流捕捉静态物体,光流流编码动态运动),并通过跨模态偏置调整在门控阶段实现双流早期交互(如光流引导RGB关注动态区域),而非传统后期融合。

2025-03-30 19:57:47 1043

原创 【第二十八周】:Temporal Segment Networks:用于视频动作识别的时间分段网络

本篇博客介绍了时间分段网络(Temporal Segment Network, TSN),这是一种针对视频动作识别的高效深度学习框架,其核心思想是通过分段稀疏采样和全局时序建模解决传统方法在长时程动作建模中的计算冗余与局部片段覆盖不足问题。TSN将视频均匀划分为多个时间段,每个段随机抽取一个短片段,利用共享权重的卷积网络提取片段特征,并通过聚合函数(如平均池化、Top-K池化)融合全局时序信息生成视频级预测。

2025-03-22 23:14:12 622

原创 【第二十七周】:AlphaPose:全身区域多人实时位姿估计与跟踪

本篇博客介绍了AlphaPose,这是一种基于自顶向下范式的多人姿态估计框架,针对传统方法在检测框定位偏差、热图量化误差及冗余姿态抑制等核心问题,提出多阶段优化方案:首先设计对称空间变换网络(SSTN),通过仿射变换动态校正检测框偏移,解决因定位不准导致的关键点中心化误差;其次,提出对称积分关键点回归(SIKR),引入幅值对称梯度(ASG)优化热图到坐标的转换过程,显著降低手部、足部等精细部位的量化误差;

2025-03-16 21:02:13 995

原创 【第二十六周】:HRNet:用于人体姿态估计的深度高分辨率表征学习

HRNet作为高分辨率特征保持网络的代表,通过多阶段并行分支持续交互的工作机制,在人体姿态估计、图像分割等密集预测任务中实现了像素级精准定位。其核心在于全程保持高分辨率,逐步增加低分辨率分支,每个阶段通过跨分辨率连接(上/下采样后特征叠加)实现多尺度信息融合,最终将各分支特征统一上采样至高分辨率输出,避免了传统网络因反复下采样导致的空间信息丢失。

2025-03-09 21:00:58 964

原创 【第二十五周】:DeepPose:通过深度神经网络实现人体姿态估计

这篇博客介绍了DeepPose,这是首个基于深度神经网络(DNN)的人体姿态估计框架,其核心思想是通过端到端回归直接预测人体关节坐标,摒弃了传统方法依赖手工特征和图形模型的局限性。针对传统算法在遮挡、复杂背景和小关节定位中的不足,DeepPose提出级联回归的方法:初始阶段利用全局低分辨率图像预测粗略关节点位置,后续级联阶段通过高分辨率局部图像块逐步修正误差,实现从粗到细的优化。为消除尺度差异,DeepPose对输入图像使用了归一化,且对级联网络进行独立训练,每个阶段参数分离以适配不同的输入尺度。

2025-03-02 19:25:28 1110

原创 第二十四周:OpenPose:使用部分亲和场的实时多人2D姿态估计

本篇博客介绍了一种实时多人2D姿态估计框架——OpenPose,其核心思想是通过自底向上的全局关联策略,解决传统方法在多人场景下面临的计算效率低与关键点误匹配问题。针对多人姿态中肢体拓扑关联的复杂性,提出部分亲和场(PAF)技术,以向量场代表关键点间的空间方向关系,结合双分支卷积网络同步输出关键点置信图与PAF场,通过路径积分与二分图匹配算法实现跨个体的精准聚类;针对小尺度关键点检测精度不足,设计多阶段级联网络,逐层细化预测结果以提升遮挡区域的鲁棒性。

2025-02-23 20:43:07 948

原创 【第二十三周】SAM(Segment Anything)

本篇博客介绍了Segment Anything Model (SAM),这 是Meta AI团队于2023年提出的通用图像分割基础模型,旨在通过用户提供的交互式提示(如点、框、文本等)实现任意目标的零样本分割。SAM的核心思想是将分割任务转化为提示驱动的生成问题,通过大规模预训练和高效架构设计实现跨领域泛化能力。

2025-02-16 18:39:12 1555 1

原创 【第二十二周】语义分割:Deeplab V3

这篇博客介绍了 DeepLab V3 模型,这是一种基于深度学习的语义分割模型,旨在解决图像中多尺度物体的像素级分类问题。其核心思想是通过空洞卷积(Atrous Convolution)在不降低分辨率的前提下扩大感受野,并结合改进的ASPP模块(Atrous Spatial Pyramid Pooling)捕获多尺度上下文信息,有效解决了传统方法中因分辨率损失和上下文不足导致的分割精度下降问题。该模型在PASCAL VOC等数据集上达到了当时的SOTA性能,广泛应用于自动驾驶、医学影像等领域。

2025-02-09 21:11:31 997

原创 第二十一周:Mask R-CNN

本篇博客介绍了Mask R-CNN,这是一种用于实例分割的模型,能够在目标检测的基础上实现像素级分割。其核心思想是在Faster R-CNN框架中引入一个并行的Mask分支,同时完成目标检测(分类和边界框回归)和实例分割(像素级掩码生成)。针对Faster R-CNN中RoIPool导致的特征图与原始图像空间不对齐问题,Mask R-CNN提出了RoIAlign技术,通过双线性插值消除量化误差,显著提升了分割精度。此外,Mask分支采用全卷积网络(FCN)结构,能够高效地生成目标的二值掩码。

2025-01-26 21:17:30 786

原创 【第二十周】U-Net:用于生物图像分割的卷积神经网络

U-NetU-Net采用对称的编码器-解码器设计,编码器通过卷积和池化操作提取特征,解码器通过上采样和卷积操作恢复分辨率。这种架构允许U-Net进行端到端训练,并有效地从有限的数据集中学习。U-Net最初用于医学图像分割(如细胞分割、肿瘤检测),但其高效的架构和强大的性能使其迅速扩展到其他领域,包括:卫星图像分析、工业检测、自然图像处理等。尽管存在一些局限性,但通过不断的改进和优化,U-Net及其变体在图像分割任务中仍然具有广泛的应用前景。

2025-01-19 21:04:37 1648 3

原创 第十九周:SSD(Single Shot MultiBox Detector)

本篇博客介绍了 SSD(Single Shot MultiBox Detector),这是一种基于全卷积网络的单阶段目标检测模型。与双阶段检测模型(如 Faster R-CNN)相比,SSD 在保持较高检测精度的同时,显著提升了检测速度,使其更适用于实时检测任务。SSD 的核心优势在于其多尺度检测机制:通过在多个特征图的每个位置上设置不同尺度和长宽比的先验框(Default Boxes),SSD 能够充分利用低层特征图的小感受野检测小目标,以及高层特征图的大感受野检测大目标,从而有效提升小目标的检测效果。

2025-01-12 19:14:19 1241

原创 第十八周:Faster R-CNN论文阅读

本篇博客介绍了 Faster R-CNN,这是一种双阶段的目标检测网络,是对 Fast R-CNN 的改进。为了解决 Fast R-CNN 中,计算效率低和区域推荐算法耗时长的问题,Faster R-CNN 提出了区域推荐的方法:Region Proposal Network(RPN),这种方法代替了传统的区域推荐算法。RPN 与 Fast R-CNN 共享卷积特征,减少了计算量,大幅提高了目标检测的速度,准确率也达到了新的高度。

2025-01-05 20:58:09 1179 1

原创 第十七周:Fast R-CNN论文阅读

这篇博客介绍了Fast R-CNN,这是一种双阶段的目标检测模型,是对RCNN的改进。RCNN由于对每个候选区域单独进行特征提取,导致了大量的重复计算。为了解决这一问题,Fast R-CNN引入了更为高效的策略。它首先对整张图片进行卷积操作,得到特征图,然后根据候选区域在原图中的空间位置信息,在特征图上进行RoI Pooling,从而避免了重复计算。RoI Pooling层根据预定义的网格尺寸对候选区域特征图进行划分,然后在每个网格内执行最大池化操作,最终生成固定尺寸的RoI特征向量。

2024-12-29 20:57:24 883 1

原创 第十六周:RCNN论文阅读

本周学习了RCNN,其目标检测具有里程碑式的意义。RCNN首次将深度学习网络应用到目标检测任务上,使目标检测的效果得到了明显的提升。其采用的选择性搜索生成候选区域、CNN 提取特征、SVM 分类及边界框回归修正等技术组合,形成了 Two-Stage 目标检测算法的经典框架,后续的 Fast R-CNN、Faster R-CNN 等模型都是在此基础上改进和发展而来。

2024-12-22 20:40:02 619

原创 第十五周:目标检测基础

本文从数据维度的角度探讨了三维卷积操作,并通过具体实例说明了目标定位和特征点检测的原理及其基本方法。此外,文章还介绍了基于滑动窗口的目标检测算法,并分析了其效率低下的原因,即独立检测导致了大量重复计算。针对这一问题,本文介绍了一种利用卷积实现滑动窗口的方法。该方法用了卷积的思想,通过共享多个卷积结果,有效避免了重复计算,从而提高了计算效率。本周复习了三维卷积在计算上的方法,扫清了多维度卷积核卷积后的结果中通道数的疑问;

2024-12-15 21:33:30 763

原创 第十四周:初识多模态

本文介绍了多模态大模型的基本概念,并对其关键技术进行了讲解。文章对近年来几种主要的视觉-语言大模型进行了概述,展示了多模态视觉-语言大模型的发展现状。本周主要是拓展知识面,对多模态大模型有了初步的认识,学习了一些主要的视觉-语言大模型的大致结构,了解了视觉-语言大模型的发展。

2024-12-08 19:05:42 1082

原创 第十三周:深度学习基础

本文探讨了序列到序列(seq2seq)模型的应用范围,并详细阐述了Transformer模型的架构基础。文章中不仅对Transformer模型的各个组成部分进行了具体阐述,还介绍了其训练和推理过程。特别是,文章重点介绍了编码器和解码器的计算步骤和方法。本周学习了 Transformer 的基本结构,并理解了其训练和推理的基本步骤,也了解了masked self-attention 和 cross attention 的基本计算方法。

2024-12-01 20:52:25 583

原创 第十二周:深度学习基础

本文首先阐述了多头注意力(Multi-Head Attention)的基本原理和计算方法,然后探讨了自注意力(Self-Attention)机制在多种任务中的应用,并与传统的神经网络结构——卷积神经网络(CNN)和循环神经网络(RNN)进行了比较。此外,文章还通过一个具体的案例——爬取微博评论,详细说明了网络爬虫的基本步骤和实施过程。

2024-11-24 16:10:51 597

原创 第十一周:深度学习基础

本文介绍了集长短期记忆网络(LSTM)的变体,有门控制单元(GRU)、“peephole connection LSTM”和耦合忘记门与输入门的LSTM。此外,文章还介绍了自注意力机制,并详细阐述了其计算流程。本周继续学习了LSTM的几个变体,深化了对LSTM的理解,还学习了自注意力机制在序列任务中的作用以及其工作原理,还通过矩阵的角度加深了理解。下周将继续学习多头注意力机制。

2024-11-17 21:10:27 741

原创 第十周:深度学习基础

本文阐述了双向循环神经网络(BRNN)的基本原理,并通过单向循环神经网络(RNN)来说明BRNN的优势。文章介绍了BRNN的计算流程,并探讨了如何构建深层RNN。此外,本文通过一个实例,介绍了在PyTorch框架中实现word2vec的基本步骤和方法。本周完成了前几周学习RNN时遗留的任务:双向RNN的学习,并学习了如何构建深层的RNN以处理更复杂的任务。此外,通过一个例子对前面所学的word2vec进行了实践学习,了解了pytorch中word2vec所需的模块、方法及步骤。

2024-11-10 20:45:46 668

原创 第九周:深度学习基础

本文详细介绍了负采样技术的具体实施方法,并与上周讨论的Skip-Gram模型进行了计算效率的对比分析,从而突出了负采样在计算效率方面的优势。此外,文章还深入解释了Sigmoid函数和Softmax函数,并探讨了它们在不同应用场景下的差异。最后,本文介绍了一个简单的循环神经网络(RNN)分类任务案例,并阐述了其实现流程和关键步骤。本周主要学习了上周遗留的任务:负采样,学习了softmax与sigmoid函数的具体细节和二者的区别。对于前几周学习的RNN,也理解了一个较简单的实例,字符级别的RNN名字分类。

2024-11-03 20:52:15 680

原创 第八周:深度学习基础

本文探讨了自然语言处理领域中的一种先进有效的词表示方法——词嵌入,并分析了其关键特性:类比推理能力。在词嵌入的基础上,文章介绍了嵌入矩阵,并介绍了几种算法来说明如何学习嵌入矩阵。在文末,重点介绍了用 Skip-Gram 模型来学习嵌入矩阵的方法,还分析了其不足之处, 同时简要介绍了一种改进方案,即采用分级softmax分类器来优化模型性能。

2024-10-27 20:35:05 700

原创 第七周:深度学习基础

本文探讨了传统循环神经网络(RNN)的局限性,包括在处理长序列数据时容易忽略远距离依赖信息,以及在训练过程中可能遇到的梯度消失或梯度爆炸问题。为了解决这些问题,文章介绍了一种改进的RNN模型——长短期记忆网络(LSTM),旨在提高模型对长序列数据的处理能力。文中详细阐述了LSTM的核心思想并对其结构和工作流程做了详细介绍。本周继续了上周的学习,对于序列问题,RNN明显优于标准神经网络,但还是有不足之处,LSTM通过引入长期记忆细胞来记忆长期的重要信息。

2024-10-20 20:28:32 993

原创 第六周:深度学习基础

本文阐述了网络退化现象,即在深度神经网络中增加更多层级反而导致性能下降的问题。文章介绍了一种解决方案——残差网络(ResNet),并探讨了残差块的核心思想及其架构。本文分析了为何在传统网络中引入残差块能够提升性能,并讨论了循环神经网络(RNN)的基础知识。文章解释了标准神经网络在处理序列任务时面临的挑战,并阐明了循环神经网络在处理这类任务时的优势。此外,本文还详细介绍了循环神经网络的结构,并阐述了其前向传播和反向传播的过程。

2024-10-13 18:25:16 918

原创 第五周:李宏毅机器学习

本文分析了在训练模型的过程中,“损失小”和“理想与现实模型差距小”二者之间难以同时满足的问题,。文章介绍了一种解决方案——“深度学习”,并通过与“宽度学习”的比较,说明了“深度”学习在处理这一问题上的优势。此外,针对卷积神经网络(CNN)在处理经过平移、缩放、旋转变换的图像时的识别问题,本文介绍了“spatial transformer”这一方法,来增强CNN的平移不变性。

2024-10-06 15:01:23 1003

原创 第四周:李宏毅机器学习

本文探讨了标准梯度下降法在参数更新方面的局限性,并介绍了自适应学习率算法,特别是Adagrad和RMSProp。这两种算法通过考虑历史梯度来动态调整学习率,但它们在处理梯度权重方面有所不同。文章还讨论了“梯度爆炸”问题,并分析了学习率衰减(Learning Rate Decay)和预热(Warm Up)策略的效果及其计算方法,这两种策略都将时间因素纳入学习率的调整中。此外,本文还对卷积神经网络(CNN)进行了基础介绍,解释了卷积操作提取特征的原理和步骤,并阐述了池化操作的作用及其实施步骤。

2024-09-29 19:59:37 928

原创 第三周:李宏毅机器学习

当机器学习模型的损失较大时,说明模型出了问题,需要更改模型。本文分析了如何判定导致模型损失较大的原因,并针对各种原因说明了解决方法。模型复杂度过大或过小都会导致模型出问题,所以需要寻找复杂度适中的模型,本文介绍了N折交叉验证的方法来解决这一问题。参数最优化用的一般行的梯度下降方法可能会因为局部最小值点和鞍点而停止,本文介绍了用 hessian 矩阵来判断局部最小值和鞍点的原理和方法,对于鞍点, hessian 矩阵的负特征值对应的特征向量可以作为参数更新的方向。

2024-09-22 19:46:49 1122

原创 第二周:李宏毅机器学习

本周以宝可梦为例,学习了回归和分类两大任务的步骤。在预测宝可梦CP值的线性回归任务中,学习了改进模型的常用方法,并学会了用正则化的方法来解决模型过拟合问题;在概率生成模型中,学习了高斯分布和极大似然估计在模型中的应用;在逻辑回归模型中,学习了一种新的损失函数:交叉熵。将逻辑回归与线性回归进行了比较,并对比了均方差和交叉熵,又将概率生成模型和逻辑回归模型进行了对比,分析了各自优势场景。最后,学习了多分类和Softmax的应用,并学习了用特征转换和连接多个逻辑回归的方法来解决逻辑回归的局限性问题。

2024-09-15 18:44:18 866

原创 第一周:李宏毅机器学习

本周学习了机器学习的基本概念和训练模型的步骤;了解了模型对参数的要求并学会了用梯度下降算法寻找最小损失点;学习了线性模型和非线性模型的表示方法,并学习了两种激活函数,Sigmoid 和 ReLU;初步了解了神经网络和深度学习,了解了深度学习的训练步骤;最后还学习了反向传播方法。根据自己的知识和经验,先按自己的猜测人为定义出一个带有未知参数的函数,这个猜测的函数不一定是好的,但是没关系,先定义出来。

2024-09-08 20:01:34 974 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除