- 博客(49)
- 收藏
- 关注
原创 深度学习笔记
PerSAM是基于SAM(Segment Anything Model)进行改进的模型,并且实现OneShot功能。SAM一般需要人工选择先验的提示词,包括点、矩形框box和分割mask,并根据提示词分割出目标。PerSAM采用一张参考图片的目标(OneShot)来自动选择前景点和背景点,并作为SAM的提示词,而不需要手动选择。针对目标可能存在歧义的部分,PerSAM-F通过训练两个权重参数来对SAM输出的3组mask进行加权求和,进而使得分割更加准确。
2025-06-14 17:26:23
756
原创 深度学习笔记
Segement Anything Model一经发布就获得了无数关注,当然更多人关注的是他庞大的数据集以及生成这个数据集所用的Data Engine,构建数据集的贡献诚然巨大,但是SAM本身结构的设计也是有相当的想法。尽管模型本身说不上十分复杂,但是也值得认真学习。还是那句话,整体上来说,SAM的结构说不上十分复杂,除了mask decoder有一点绕之外,整体的结构都是直上直下。
2025-06-07 13:55:52
1042
原创 深度学习笔记
现在假设我想将图片划分出一个个宽高都为16像素的正方形,那么宽高为(1024,1024)的图片在水平方向有1024/16=64个正方形,垂直方向有1024/16=64个正方形,且每个正方形的Shape为(16,16,3),拉直后变成(768,1)的向量,因此我们就能看到Shape为(1,3,1024,1024)的特征图经过patch_embed后得到Shape为(1,64,64,768)的特征图。接着再来看看是怎么实现的,实际上就是通过一个普通的卷积核实现的,代码如下。
2025-05-31 15:14:40
1007
原创 深度学习笔记
人体骨架动力学为人体动作识别提供了重要的信息。传统的骨骼建模方法通常依赖于手工制作的部件或遍历规则,因此表达能力有限,难以泛化。在这项工作中,我们提出了一种新的动态骨架模型,称为时空图卷积网络(ST-GCN),它通过自动学习数据中的时空模式,超越了以往方法的局限性。这种表达方式不仅提高了表达能力而且增强了泛化能力。在两个大型数据集上Kinetics和NTU-RGBD上,相比于主流方法,它实现实质性改进。一. 介绍人体动作识别在视频理解中发挥着重要作用,近年来已成为一个活跃的研究领域。
2025-05-25 14:43:19
1202
原创 深度学习笔记
CLIP-DIY 是一种基于CLIP 模型的开放词汇语义分割方法,特点是无需额外的训练或者像素级标注,即可实现高效、准确的分割效果。该方法主要利用 CLIP 模型在图像分类方面的强大能力,并结合无监督目标定位技术,实现开放词汇语义分割。在论文中,首先肯定了CLIP出现的重要意义,开启了开放世界图像感知的大门。缺点是难以用在图像分割这样的密集任务。虽然已经有完全监督学习的方法,可以用来解决图像分割问题。但是冗长的像素级标注,要付出高昂的成本。
2025-05-18 19:23:40
883
原创 深度学习笔记
ResNet(Residual Network,残差网络)是由何恺明团队于2015年提出的深度卷积神经网络架构,其核心思想通过残差学习解决了传统深度网络中的梯度消失和退化问题,成为计算机视觉领域的里程碑式模型。在之前的学习中已经了解过Resnet的理论知识,本周对Resnet进行了一次实践验证。
2025-05-11 17:35:33
540
原创 深度学习学习笔记
在这个网络结构图中,支持原型 (Support prototype) 被用于与上下文掩码生成模块 (CMGM) 输出的上下文掩码和 query 图像的中级特征进行拼接,这样设计的目的是为了更好地捕捉支持图像和 query 图像之间的语义关系。从网络结构图上看,这样的设计思路体现了一个跨图像语义共享的机制,通过支持原型的引入,网络能够更好地将支持图像中的类别特征与 query 图像中的对应物体建立关联,从而提高分割的精度和鲁棒性。特征对齐的目的是在查询图像中识别出与支持图像中的目标类别相似的区域。
2025-05-04 13:16:59
564
原创 深度学习笔记
社交、科技巨头Meta联合15所大学的研究机构,经过两年多的努力发布了首个多模态视频训练数据集和基础套件Ego-Exo4D,用于训练和研究AI大模型。据悉,该数据集收集了来自13个城市839名参与者的视频,总时长超过1400小时,包含舞蹈、足球、篮球、攀岩、音乐、烹饪、自行车维修等8大类,131个复杂场景动作。这使得AI模型更好地理解人类的行为,有助于开发出更强大的多模态大模型。Ego-Exo4D也是目前最大的公开第一人称和第三人称视频训练集。Meta已经准备开源该数据集,最晚12月底开放下载。
2025-04-26 13:02:36
749
1
原创 深度学习笔记
本周了解了EGO4D数据集,EGO4D 是世界上最大的以自我为中心(第一人称)视频 ML 数据集和基准测试套件,拥有 3,600 小时(并且还在增加)的密集叙述视频和五个新基准测试任务中的广泛注释。它涵盖了来自全球 74 个地点和 9 个不同国家的 926 名独特的相机佩戴者在野外捕捉的数百种日常生活活动场景(家庭、户外、工作场所、休闲等)。视频的某些部分伴随着音频、环境的 3D 网格、眼睛凝视、立体和/或来自同一事件中多个以自我为中心的摄像机的同步视频。
2025-04-19 11:20:15
863
原创 深度学习学习笔记
本周阅读了《Stacked Hourglass Networks for Human Pose Estimation》,作者在人体姿态估计问题上提出了一种沙漏型的网络结构。特征在所有尺度上进行处理,并整合,以最有效地捕捉与身体相关的各种空间关系。作者展示了,重复进行自底向上和自顶向下的处理,并配合中间监督对提升网络的性能至关重要。作者将该架构称为 “堆叠沙漏” ,该网络连续执行池化和上采样的步骤,最终产生一组预测。该方法在FLIC 数据集和MP Ⅱ数据集上的实现了当时最优的结果。简介。
2025-04-12 17:25:32
976
原创 深度学习笔记
图的结构一般来说是十分不规则的,可以认为是无限维的一种数据,所以它没有平移不变性。而传统的CNN、RNN是针对有限的,有平移不变性的,然而,每一个节点的周围结构可能都是独一无二的,这种结构的数据,就让传统的CNN、RNN瞬间失效。所以很多学者从上个世纪就开始研究怎么处理这类数据了。这里涌现出了很多方法,例如GNN、DeepWalk、node2vec等等,GCN只是其中一种。GCN(图卷积神经网络),实际上跟CNN的作用一样,就是一个特征提取器,只不过它的对象是图数据。
2025-04-05 20:53:20
695
原创 深度学习笔记
本周阅读的论文题目是《MICN: Multi-scale Local and Global Context Modeling for Long-term Series Forecasting》,本文中了2023 ICLR的oral。又是一篇长时间序列预测的文章,但是它是一个基于时域卷积模块的模型,而不是基于Transformer的模型。本文的动机有两点:先提取时间序列的局部特征,然后再提取所有局部特征之间的关联性,进而得到全局特征,从Local和Global的角度建模;
2025-03-28 15:42:03
701
原创 深度学习笔记(38周)
21年发表在BMVC的东京大学论文“第一人称动作识别是视频理解中的一项具有挑战性的任务。由于强烈的自我运动和有限的视野,第一人称视频中的许多背景或嘈杂帧可能会在动作识别模型的学习过程中分散其注意力。为了编码更具判别性的特征,模型需要能够专注于视频中最相关的部分以进行动作识别。以前的研究尝试通过应用时间注意机制来解决这个问题,但未能考虑整个视频的全局背景,这对于确定相对重要的部分至关重要。
2025-03-22 21:59:19
1227
原创 深度学习笔记(37周)
本周阅读的论文是《Temporal Segment Networks: Towards Good Practices for Deep Action Recognition》。提出temporal segment network(TSN)网络模型:TSN采样,具备稀疏性和全局性的特征,能够建模间隔更长帧之间时间依赖关系,确保获取视频级信息TSN包含提取空间信息和提取时间信息两路模型,并基于后期融合方式来融合两路模型的结果。提出了一系列最佳实践方案,如数据增强、正则化、交叉模态预训练等。
2025-03-15 18:46:18
1032
原创 深度学习学习笔记(36周)
本文提出了一种在图结构数据上进行半监督学习的可扩展方法,这种方法是基于卷积神经网络的高效变体,它直接在图上操作。通过谱图卷积(spectral graph convolutions) 的局部一阶近似,来确定卷积网络结构。该模型在图边数上线性缩放,并且学习编码局部图结构和节点特征的隐藏层表示。在引文网络和知识图数据集上的一些实验中,证明了该方法在很大程度上优于相关方法。
2025-03-08 19:14:12
677
原创 深度学习学习笔记
人体骨架动力学为人体动作识别提供了重要的信息。传统的骨骼建模方法通常依赖于手工制作的部件或遍历规则,因此表达能力有限,难以泛化。在这项工作中,我们提出了一种新的动态骨架模型,称为时空图卷积网络(ST-GCN),它通过自动学习数据中的时空模式,超越了以往方法的局限性。这种表达方式不仅提高了表达能力而且增强了泛化能力。在两个大型数据集上Kinetics和NTU-RGBD上,相比于主流方法,它实现实质性改进。一. 介绍人体动作识别在视频理解中发挥着重要作用,近年来已成为一个活跃的研究领域。
2025-02-28 21:13:56
750
原创 深度学习学习笔记
本周阅读了《Stacked Hourglass Networks for Human Pose Estimation》,作者在人体姿态估计问题上提出了一种沙漏型的网络结构。特征在所有尺度上进行处理,并整合,以最有效地捕捉与身体相关的各种空间关系。作者展示了,重复进行自底向上和自顶向下的处理,并配合中间监督对提升网络的性能至关重要。作者将该架构称为 “堆叠沙漏” ,该网络连续执行池化和上采样的步骤,最终产生一组预测。该方法在FLIC 数据集和MP Ⅱ数据集上的实现了当时最优的结果。简介。
2025-02-22 17:36:41
902
原创 深度学习学习笔记(33周)
1 介绍15或18或25个关键点的身体/脚关键点估计。运行时间与检测到的人数无关。6个关键点脚关键点估计。与25个关键点的身体/脚关键点检测器集成在一起。2x21关键点关键点估计。当前,运行时间取决于检测到的人数。70个关键点面部关键点估计。当前,运行时间取决于检测到的人数。而通常的人体关键点检测技术的关键点数量为每人18个关键点。人体2D姿势估计的问题,主要集中在寻找个体的身体部位上。推断图像中的多个人的姿势,困难在于:首先,每个图像可能包含未知数量的人;
2025-02-16 17:00:14
899
原创 深度学习学习笔记(32周)
Mask R-CNN是2017年发表的文章,一作是何恺明大神,没错就是那个男人,除此之外还有Faster R-CNN系列的大神,可以说是强强联合。该论文也获得了ICCV 2017的最佳论文奖(Marr Prize并且该网络提出后,又霸榜了MS COCO的各项任务,包括目标检测、实例分割以及人体关键点检测任务。在看完这边文章后觉得Mask R-CNN的结构很简洁而且很灵活效果又很好(仅仅是在Faster R-CNN的基础上根据需求加入一些新的分支)。
2025-02-08 09:59:36
980
原创 深度学习学习笔记(第31周)
本周报的目的在于汇报第31周的学习成果,本周主要聚焦于基于深度学习的图像分割领域的常用模型FCN。FCN是对图像进行像素级的分类(也就是每个像素点都进行分类),从而解决了语义级别的图像分割问题。
2025-01-25 09:52:35
1265
原创 深度学习学习笔记(第30周)
本周报的目的在于汇报第30周的学习成果,本周主要聚焦于基于深度学习的图像分割领域的常用模型U-net。 U-net是最常用、最简单的一种分割模型,在2015年被提出。UNet网络是一种用于图像分割的卷积神经网络,其特点是采用了U型网络结构,因此称为UNet。UNet算法的关键创新是在解码器中引入了跳跃连接(SkipConnections),即将编码器中的特征图与解码器中对应的特征图进行连接。这种跳跃连接可以帮助解码器更好地利用不同层次的特征信息,从而提高图像分割的准确性和细节保留能力。Thepurpo
2025-01-18 17:31:42
940
原创 深度学习学习笔记(第29周)
本周报的目的在于汇报第29周的学习成果,本周主要聚焦于基于深度学习的目标检测领域算法的单阶段算法的开山之作YOLO v1的改进版本YOLO v2。作者 Joseph Redmon 和 Ali Farhadi 在YOLOv1的基础上,进行了大量改进,提出了 YOLOv2 和 YOLO9000,重点解决 YOLOv1 召回率和定位精度方面的不足。
2025-01-12 11:37:03
1596
1
原创 深度学习学习笔记(第28周)
本篇介绍了:YOLO V1目标检测直接将整张图像作为网络的输入,直接输出边界框的位置以及所属的类别网络结构借鉴了 GoogLeNet。24个卷积层,2个全链接层。最后输出结果包含两个预选框返回的中心坐标值以及宽高和置信度、类别数量。YOLO的损失就包括三部分:坐标位置误差,confidence误差,分类误差。值得注意的是,损失值只计算识别到物体的误差。针对邻近网格可能会识别同一目标,发生重复检测问题,使用非极大值抑制找到最优边界框。
2025-01-05 15:01:54
990
原创 深度学习入门课程学习笔记(第27周)
本周报的目的在于汇报第27周的学习成果,本周主要聚焦于基于深度学习的目标检测领域算法的R-CNN目标检测算法的改进版本Fast R-CNN。对于上周学习的R-CNN,由于卷积神经网络的全连接层。
2024-12-28 16:32:07
874
原创 深度学习入门课程学习笔记(第26周)
目标检测(Object Detection) 就是一种基于目标几何和统计特征的图像分割,它将目标的分割和识别合二为一,通俗点说就是给定一张图片要精确的定位到物体所在位置,并完成对物体类别的识别。其准确性和实时性是整个系统的一项重要能力。在卷积神经网络被成功应用于图像分类后,2014 年,Ross Girshick,Jeff Donahue 等人提出了 R-CNN(Regions with CNN features)方法,并尝试将其应用到目标检测上。
2024-12-20 20:08:28
774
原创 深度学习入门课程学习笔记(第25周)
本周报的目的在于汇报第25周的学习成果,本周主要聚焦于基于深度学习的目标检测领域算法的总体框架的学习。在这本周的学习中,内容主要涵盖了目标检测算法的发展历程,包括发展历程和发展阶段,然后纤细说明了目标检测算法的分类以及实现流程。本篇文章将对学习内容进行详细的阐述,并在最后部分对本周的学习内容进行总结。本周报旨在通过这种方式,将理论知识与实践应用有效地结合起来,为深度学习的基础内容学习与方向提供概括性总结。The purpose of this weekly report is to present the
2024-12-15 16:08:42
651
原创 深度学习入门课程学习笔记(第24周)
本周报的目的在于汇报深度学习入门课程第24周的学习成果,本周主要聚焦于决策树的相关知识。在这本周的学习中,课程内容主要涵盖了决策树的介绍,包括决策树的组成和构建,基尼系数,决策树中的预剪枝处理等等。本篇文章将对学习内容进行详细的阐述,并在最后部分对本周的学习内容进行总结。本周报旨在通过这种方式,将理论知识与实践应用有效地结合起来,为深度学习的基础内容学习与方向提供概括性总结。
2024-12-08 19:22:27
1074
原创 深度学习入门课程学习笔记(第23周)
本周报的目的在于汇报深度学习入门课程第23周的学习成果,本周主要聚焦于VGG网络的结构原理,模型搭建以及训练实例。在这本周的学习中,课程内容主要涵盖了VggNet的介绍,包括VGG的时代背景,网络结构,以及其主要贡献和代码实现等等。本篇文章将对学习内容进行详细的阐述,并在最后部分对本周的学习内容进行总结。本周报旨在通过这种方式,将理论知识与实践应用有效地结合起来,为深度学习的基础内容学习与方向提供概括性总结。
2024-12-01 12:53:35
1036
原创 《PyTorch深度学习快速入门教程》学习笔记(第22周)
本周报的目的在于汇报《PyTorch深度学习快速入门教程》课程第七周的学习成果,主要聚焦于AlexNet的使用以及其相关内容。在这本周的学习中,课程内容主要涵盖了AlexNet的介绍,包括Alex的时代背景,网络结构,以及其主要贡献和代码实现等等。本篇文章将对学习内容进行详细的阐述,并在最后部分对本周的学习内容进行总结。本周报旨在通过这种方式,将理论知识与实践应用有效地结合起来,为深度学习的基础内容学习与方向提供概括性总结。
2024-11-24 16:44:47
703
原创 《PyTorch深度学习快速入门教程》学习笔记(第21周)
本周报的目的在于汇报《PyTorch深度学习快速入门教程》课程第六周的学习成果,主要聚焦于LeNet的使用以及其相关内容。在这本周的学习中,课程内容主要涵盖了LeNet的介绍,包括实现所用的数据集,模型搭建,以及模型训练和测试等等。本篇文章将对学习内容进行详细的阐述,并在最后部分对本周的学习内容进行总结。本周报旨在通过这种方式,将理论知识与实践应用有效地结合起来,为深度学习的基础内容学习与方向提供概括性总结。The purpose of this weekly report is to present th
2024-11-17 20:02:49
898
原创 《PyTorch深度学习快速入门教程》学习笔记(第20周)
本周报的目的在于汇报《PyTorch深度学习快速入门教程》课程第六周的学习成果,主要聚焦于Transforms的使用以及其相关内容。在这本周的学习中,课程内容主要涵盖了池化层原理,包括步幅,填充原理,以及池化层实践等等。本篇文章将对学习内容进行详细的阐述,并在最后部分对本周的学习内容进行总结。本周报旨在通过这种方式,将理论知识与实践应用有效地结合起来,为深度学习的基础内容学习与方向提供概括性总结。① 池化层返回窗口中最大或平均值。② 缓解卷积层位置的敏感性。③ 同样有窗口大小、填充和步幅作为超参数。
2024-11-10 16:13:27
1029
原创 《PyTorch深度学习快速入门教程》学习笔记(第19周)
本周报的目的在于汇报《PyTorch深度学习快速入门教程》课程第五周的学习成果,主要聚焦于Transforms的使用以及其相关内容。在这本周的学习中,课程内容主要涵盖了卷积原理,包括步幅,填充原理,以及卷积层的搭建和卷积层处理图片等等。本篇文章将对学习内容进行详细的阐述,并在最后部分对本周的学习内容进行总结。本周报旨在通过这种方式,将理论知识与实践应用有效地结合起来,为深度学习的基础内容学习与方向提供概括性总结。
2024-11-03 17:12:00
924
原创 《PyTorch深度学习快速入门教程》学习笔记(第18周)
本周报的目的在于汇报《PyTorch深度学习快速入门教程》课程第三周的学习成果,主要聚焦于Transforms的使用以及其相关内容。在这本周的学习中,课程内容主要涵盖了Transforms使用,包括常见的Transfroms工具,Resize裁剪和RandomCrop随机裁剪等等。本篇文章将对学习内容进行详细的阐述,并在最后部分对本周的学习内容进行总结。本周报旨在通过这种方式,将理论知识与实践应用有效地结合起来,为深度学习的基础内容学习与方向提供概括性总结。
2024-10-20 11:49:00
766
原创 《PyTorch深度学习快速入门教程》学习笔记(第16周)
本周报的目的在于汇报《PyTorch深度学习快速入门教程》课程第二周的学习成果,主要聚焦于Tensorboard的使用以及其相关内容。在这本周的学习中,课程内容主要涵盖了Tensorboard使用,包括等等。本篇文章将对学习内容进行详细的阐述,并在最后部分对本周的学习内容进行总结。本周报旨在通过这种方式,将理论知识与实践应用有效地结合起来,为深度学习的基础内容学习与方向提供概括性总结。
2024-10-13 14:10:22
1023
原创 《PyTorch深度学习快速入门教程》学习笔记(第15周)
本周报的目的在于汇报《PyTorch深度学习快速入门教程》课程第一周的学习成果,主要聚焦于pytorch运行环境的安装以及其相关内容。在这本周的学习中,课程内容主要涵盖了安装Anaconda,安装Pytorch以及Pytorch加载数据集等等。本篇文章将对学习内容进行详细的阐述,并在最后部分对本周的学习内容进行总结。本周报旨在通过这种方式,将理论知识与实践应用有效地结合起来,为深度学习的基础内容学习与方向提供概括性总结。
2024-10-05 11:23:17
1098
原创 《吴恩达机器学习》学习笔记(第十四周)
本周报的目的在于汇报《吴恩达机器学习》课程第十三周的学习成果,主要聚焦于序列模型和注意力模型相关内容。在这本周的学习中,课程内容主要涵盖了序列模型以及注意力机制等等。本篇文章将对学习内容进行详细的阐述,并在最后部分对本周的学习内容进行总结。本周报旨在通过这种方式,将理论知识与实践应用有效地结合起来,为深度学习的基础内容学习与方向提供概括性总结。
2024-09-29 18:14:10
913
原创 《吴恩达机器学习》学习笔记(第十三周)
本周报的目的在于汇报《吴恩达机器学习》课程第十三周的学习成果,主要聚焦于循环神经网络RNN的相关内容。在这本周的学习中,课程内容主要涵盖了序列模型,命名实体识别,循环神经网络,以及不同种类的RNN等等。本篇文章将对学习内容进行详细的阐述,并在最后部分对本周的学习内容进行总结。本周报旨在通过这种方式,将理论知识与实践应用有效地结合起来,为深度学习的基础内容学习与方向提供概括性总结。
2024-09-22 16:32:06
855
原创 《吴恩达机器学习》学习笔记(第十二周)
本周报的目的在于汇报《吴恩达机器学习》课程第十二周的学习成果,主要聚焦于人脸识别和神经风格迁移的相关内容。在这本周的学习中,课程内容主要涵盖了OneShotLeanring的优缺点以及改进方法,同时介绍了Siamese Network与TripletLoss损失函数。本篇文章将对学习内容进行详细的阐述,并在最后部分对本周的学习内容进行总结。本周报旨在通过这种方式,将理论知识与实践应用有效地结合起来,为深度学习的基础内容学习与方向提供概括性总结。
2024-09-14 10:36:24
763
原创 《吴恩达机器学习》学习笔记(第十一周)
本周报的目的在于汇报《吴恩达机器学习》课程第十一周的学习成果,主要聚焦于深度神经网络(CNN)的目标检测。在这一周的学习中,内容主要涵盖了神经网络模型的目标检测,同时对比了Faster R-CNN与YOLO的效果差异。本篇文章将对目标检测进行详细的阐述,并在最后部分对本周的学习内容进行总结。本周报旨在通过这种方式,将理论知识与实践应用有效地结合起来,为深度学习的基础内容学习与方向提供概括性总结。目标检测① 上周周报中,我们介绍的是利用CNN模型进行图像分类。
2024-09-08 17:37:06
1084
原创 《吴恩达机器学习》学习笔记(第十周)
本周报的目的在于汇报《吴恩达机器学习》课程第十周的学习成果,主要聚焦于深度卷积神经网络(CNN)的模型。在这一周的学习中,内容主要涵盖了神经网络的深度卷积模型,其中包括了多种具有代表性的CNN模型,例如LeNet-5、AlexNet、以及VGG-16等。本篇文章将对这些模型进行详细的阐述,并在最后部分对本周的学习内容进行总结。本周报旨在通过这种方式,将理论知识与实践应用有效地结合起来,为深度学习的基础内容学习与方向提供概括性总结。深度卷积模型① 本文将主要介绍几个典型的CNN案例。
2024-08-31 12:28:01
946
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅