自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 Towards Universal Soccer Video Understanding——论文学习(足球类)

在这篇论文中,建立了一个统一的、可扩展的足球理解多模态框架。具体来说,本文介绍了SoccerReplay-1988,这是迄今为止最大、最全面的足球视频数据集,由自动管理管道注释。这为开发多模式足球理解模型提供了坚实的基础,并成为一个更具挑战性的基准。在此基础上,本文开发了第一个足球视觉语言基础模型,称为MatchVision,它有效地利用了足球视频中的时空信息,可以应用于各种任务,如事件分类和评论生成。

2025-03-16 17:58:37 1309

原创 A Survey of Deep Learning in Sports Applications:Perception, Comprehension, and Decision——论文学习(足球综述)

本文对深度学习在运动表现中的应用进行了全面调查,重点关注三个主要方面:算法、数据集和虚拟环境以及挑战。首先,讨论了深度学习算法在运动表现中的层次结构,包括感知、理解和决策,同时比较了它们的优缺点。其次,列出了体育领域广泛使用的现有数据集,并强调了它们的特点和局限性。最后,总结了当前的挑战并指出了体育深度学习的未来趋势。本文系统性地构建了深度学习在体育应用中的技术框架,覆盖从底层感知到高层决策的全链条,并指出当前研究的瓶颈(如数据异构性、算法泛化性)。

2025-03-14 19:09:13 825

原创 MAE:Masked Autoencoders Are Scalable Vision Learners——论文学习

图 2 ImageNet验证图像的示例结果Masking。根据ViT,本文将图像划分为规则的不重叠的小块。然后对patch的子集进行采样,并掩码(即删除)剩余的patch。本文的采样策略很简单:对随机斑块进行采样,不进行替换,遵循均匀分布。简单地称之为“随机抽样”。如图 3 所示,“随机抽样”的效果最好。具有高掩蔽比(即去除斑块的比例)的随机采样在很大程度上消除了冗余,从而创建了一个不能通过从可见的邻近斑块外推轻松解决的任务(见图2 - 4)。

2025-03-13 21:42:54 730

原创 MobileMamba: Lightweight Multi-Receptive Visual Mamba Network——论文笔记

图 4 MobileMamba概述。(a) MobileMamba的架构。(c) MobileMamba块结构。(d)细粒度设计。提出了高效的多感受野特征交互(MRFFI)模块。

2025-03-07 22:14:13 869 1

原创 DeepLab V1-V3的结构和关系

DeepLab系列模型在每一代都逐步增强了多尺度处理能力和全局上下文的理解。V1适合于基础的分割任务,V2在多尺度和边界优化上有所突破,而V3则进一步摆脱了后处理步骤,通过ASPP和全局特征的结合达到了较高的性能。DeepLabV1网络简介(语义分割)_哔哩哔哩_bilibiliDeepLabV2网络简介(语义分割)_哔哩哔哩_bilibiliDeepLabV3网络简介(语义分割)_哔哩哔哩_bilibili。

2024-10-31 15:22:53 786

原创 SegNet & DeconvNet——论文阅读

此前的语义分割方法主要基于全卷积网络 (Fully Convolutional Networks, FCN),这种方法通过卷积层逐渐下采样并生成粗略的标签映射,随后用双线性插值或条件随机场 (CRF) 进行细化。DeconvNet 引入了逆卷积网络 (Deconvolution Network),旨在解决上述问题,以实现更加精细的语义分割效果。

2024-10-28 16:03:43 1049 1

原创 U-net医学分割网络——学习笔记

扩展路径中的每一步都包括特征映射的上采样,然后进行2x2卷积(“上卷积”),将特征通道的数量减半,与收缩路径中相应裁剪的特征映射进行连接,以及两个3x3卷积,每个卷积后面都有一个ReLU。由于在每次卷积中边界像素的损失,裁剪是必要的。总体来说,U-Net 适合需要高精度和上下文信息丰富的分割任务,尤其在数据有限的医学图像领域有很大优势,但在复杂环境和边界处理上仍有改进空间。:U-Net 的对称结构结合了上下文信息和高分辨率特征,能够精确定位每个像素的类别,适用于需要高精度的分割任务。

2024-10-27 17:15:34 782

原创 FCN深度学习语义分割开山之作——学习笔记

Fully Convolutional Networks for Semantic Segmentation》提出了,可直接处理任意大小的输入图像并输出相应大小的预测结果,超过了现有技术水平。

2024-10-26 22:53:25 914

原创 A survey on instance segmentation: state of the art——论文笔记

第一部分“简介”主要介绍了实例分割的背景、定义和挑战。1、背景1、检测框架的对比。

2024-10-25 10:56:30 1218 1

原创 A survey of loss functions for semantic segmentation——论文笔记

语义分割的重要性:语义分割被定义为一种像素级别的分类任务,即将图像中的每个像素分配给不同的类别。这项技术在许多领域有着广泛的应用,包括自动疾病检测和自动驾驶等。通过语义分割,不仅可以检测出疾病的存在,还可以精确定位其位置,在医学影像中尤其有用,例如检测肿瘤或病灶。损失函数的作用:在深度学习模型中,损失函数用于引导算法的学习过程,因此选择合适的损失函数对于设计复杂的语义分割模型至关重要。自2012年以来,研究人员已经开发了多种特定领域的损失函数,以提升模型在不同数据集上的表现。损失函数的分类。

2024-10-24 21:21:46 1078 1

原创 Unsupervised Domain Adaptation in SemanticSegmentation: A Review——论文笔记

该部分首先定义了问题的数学表达形式。语义分割和图像分类可以视作寻找从输入空间(图像)到输出空间(标签或语义地图)的映射问题。无监督域适应(UDA)的核心是在源域和目标域分布不同的情况下,利用源域的有标注数据,去推断目标域的无标注数据的类别分布。

2024-10-24 10:43:41 1168 1

原创 A Survey on Deep Learning Methods for Semantic Image Segmentation in Real-Time——论文笔记

概述:这一部分提供了表现最佳模型的总结表格,特别是基于Cityscapes数据集进行评估的模型。在大多数语义分割研究中,计算效率不是主要关注点,因此本节主要关注在Cityscapes数据集上的表现最好的模型。表2总结了在mIoU指标上表现最好的前十个模型,并简要介绍了这些模型使用的技术方法。实时分割模型:表3则对一些实时语义分割模型进行了排名,按照推理速度(每秒帧数,FPS)进行排序。该表显示了一些模型在高FPS下依然保持较好的mIoU表现,展示了性能与效率的权衡。近期进展。

2024-10-22 21:28:21 829 1

原创 Image Segmentation Using Deep Learning: A Survey——论文笔记

编码器将输入图像转换为低维的特征表示,而解码器则通过逐步上采样的方式恢复图像的空间信息。这种架构通常用于像素级的预测任务,如图像分割。

2024-10-21 21:40:30 1095 1

原创 MMDetection环境配置——学习笔记

注意:在MMCV-v2.x中,MMCV full被重命名为MMCV,如果你想在没有CUDA操作的情况下安装MMCV,你可以使用mim install“MMCV-lite>=2.0.0rc1”来安装lite版本。创建环境:conda create --name mmdetection python=3.8 -y #mmdetection为环境名。,选择合适的conda版本,然后复制红色框框的命令,到Anaconda Prompt运行,如下图演示。#“-e”表示以可编辑模式安装项目,

2024-10-18 17:57:18 549

原创 端对端的transformer目标检测——论文总结笔记

假设有两个集合,一个集合是“任务”,另一个集合是“工人”,每个任务由某个工人执行会产生不同的代价,算法的目标是找到一种匹配方式,使得总代价最小。找到矩阵中没有被覆盖的最小元素,将其从所有未覆盖的元素中减去,并加到被两条直线覆盖的元素上。:传统的锚点框(anchor boxes)用于覆盖不同尺寸和长宽比的对象,DETR完全摆脱了锚点框的设计,而是通过解码器中的查询直接预测对象。DETR不仅适用于物体检测任务,还可以扩展到全景分割任务,通过添加简单的分割头,达到了在全景分割中的竞争性表现。

2024-10-18 11:15:39 609

原创 YoLov5进阶——学习笔记

打开VSCode,在终端激活对应的环境并输入以下命令: 下载YOLOv8的代码拿来借鉴,地址如下:https://github.com/ultralytics/ultralytics下载好后解压,打开下图目录,双击打开block1文件:在block.py中找到C2f模块复制,打开YOLOv5的common.py文件,粘贴进去:我们发现C2f中有Bottleneck模块,所以把Bottleneck模块也copy过来,为了避免覆盖之前yolov5的块,我们把copy过来的模块加上了前缀:在yolov5的yolo

2024-10-18 09:56:56 1199

原创 Fast R-CNN论文——学习笔记

R-CNN 在处理每个候选区域时,会先将每个区域的特征提取出来,并将其存储在磁盘上,以便后续分类使用。: 由于 Fast R-CNN 在训练时直接从共享的特征图中提取 RoI 特征,这使得整个网络可以端到端训练,不再需要像 R-CNN 那样先训练一个独立的候选区域生成器(例如 Selective Search),然后再进行特征提取和分类。Fast R-CNN 通过一个单阶段训练过程,结合了分类和边界框回归的多任务损失函数,从而简化了训练流程,不再需要像 R-CNN 那样分开进行不同阶段的训练。

2024-10-15 21:55:47 627

原创 YOLOv5模型训练常见问题 & YOLOv5 Pyside6可视化界面——学习笔记

手动下载,放到对应的位置,windows下的目录是:~、AppData/Roaming/Ultralytics。

2024-10-09 20:52:16 1300

原创 YOLOv5模型检测——学习笔记

在终端输入以下代码:python detect.py --weights yolov5s.pt --source data/images/bus.jpg。在终端输入以下代码:python detect.py --weights yolov5s.pt --source screen。检测的目标,可以是单张图片,文件夹、屏幕或者是摄像头等。从时间上看,相比于yolov5s.pt耗费时间更长。IOU阈值,越低框越少,越高框越多。置信度阈值,越低框越多,越高框越少。

2024-10-07 22:14:53 1056

原创 YOLOv5环境安装及问题解决

在Anaconda Prompt (minconda) 命令框中找到yolov5-7.0的文件夹。对这个错误,我们要找到该yolov5-7.0环境所在的地方,然后将其中一个 libiomp5md.下载完后双击打开文件夹,找到requirements文件并打开。还是遇到下面的情况的话,可能是由于环境中存在多个 libiomp5md.再检测:python detect.py。再检测:python detect.py。到下图呢,那我们的环境就安装完成了。重命名一下,就OK了。再进行检测就成功啦!

2024-10-07 12:19:41 780

原创 swin transformer及其进化过程——学习笔记

swin transformer 是一种基于 transformer 架构的计算机视觉模型,旨在解决传统 transformer 应用在图像处理时存在的计算成本高和效率低的问题。

2024-10-05 17:49:52 1272

原创 YoLov1目标检测——知识点笔记

与R-CNN复杂的多步骤处理(区域提议、特征提取、分类、后处理等)相比,YoLo V1采用了单一的卷积神经网络架构,不需要单独训练不同的模块,这使得YoLo V1更容易优化,并实现了端到端的检测系统。输入448×448的rgb图片,先经过24层卷积层提取图像特征,再经过2层全连接层回归得到7×7×30的tensor,相当于30个通道的7×7的特征图。MultiBox 的检测方式仍依赖于后续的分类步骤,这增加了系统的复杂性,并且由于缺乏全局信息,难以精确检测复杂背景下的目标。

2024-10-04 22:13:17 756

原创 YOLOv1~YOLOv3理论学习——知识笔记

(1)将图片分割成S×S的网格(grid cell),如果某个object的中心落在这个网格中,则这个网格就负责预测这个object。(2)每个网格要预测B个bounding box(这里B用的2),每个bounding box又包含了四个位置信息:中心点坐标(x,y)宽度和高度(w,h)以及对应的置信度(20个)。(3) 置信度的计算:根据原论文可以理解为预测目标和真实目标之间的交并比。

2024-10-04 22:13:11 813

原创 Transformer架构详解,一文看懂不是梦!!!

在机器翻译应用中,它输入一种语言,通过一个编码组件和一个解码组件后输出对应的另一种语言。输入嵌入(Input Embedding):输入序列中的每个元素(如单词、图像块等)会先转换为向量表示,通常通过嵌入层进行。位置编码(Positional Encoding):由于 Transformer 不能像 RNN 那样通过顺序自然感知位置信息,需要添加额外的位置信息。位置编码可以使用正弦和余弦函数,帮助模型感知序列中每个元素的顺序。自注意力层(Self-Attention Layer)

2024-09-24 21:04:15 4542 2

原创 创建虚拟环境及Pytorch安装(保姆级教程!!!)

选择合适的conda版本,然后复制红色框框的命令,到Anaconda Prompt运行,如下图演示。python=3.8 # -n是name的意思。ycharm,应用新创建的环境。

2024-09-24 21:03:58 377

原创 深度学习基础

损失函数或代价函数是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。

2024-09-12 20:26:27 331 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除