自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(63)
  • 收藏
  • 关注

原创 【TrOCR】第一版记录:在自己数据集上训练TrOCR

TrOCR是一种端到端的文本识别方法,它结合了预训练的图像Transformer和文本Transformer模型,利用Transformer架构同时进行图像理解和字块级别的文本生成。TrOCR: 基于预训练模型的Transformer光学字符识别李明浩,吕腾超,崔磊,卢一娟,迪内·弗洛伦西奥,张查,李周军,魏富如,AAAI 2023。TrOCR模型也以Huggingface格式提供。文档][模型模型参数数量测试集得分62MIAM4.22(区分大小写的字符错误率)TrOCR-Base。

2025-07-06 20:03:05 1143

原创 【Dogfight论文复现】无人机视频中检测无人机的目标检测模型

论文名称:Dogfight: Detecting Drones from Drones Videos任务:复现这篇文章的Dogfight模型,也就是再自己本地,NPS数据集上跑通这个模型的代码,得到模型,成功推理,并达到论文中的精度数据集准备→环境搭建→模型实现→训练配置→推理验证→精度调优。

2025-09-29 14:02:29 1208

原创 YOLO改进Head,SEAM和MultiSEAM代码实现

声明:SEAM模块的代码并非完全独立完成,部分有参考以及其他专栏的改进系列。

2025-09-28 20:48:33 268 5

原创 窥探黑箱——解释深度学习模型“为何有效”的理论、定律、思想

深度学习的有效性不是单一理论的支撑,而是**“底层数学理论(逼近、统计、优化)→中层设计思想(分层、聚焦、复用)→具体结构逻辑(感受野、残差、注意力)”** 的多层协同结果。理论是“指导”而非“万能公式”:所有理论都有假设条件(如万能逼近定理假设“激活函数连续”“紧集输入”),现实中需结合实验调整(如ReLU虽不连续,但实践中效果优于Sigmoid);实验是“验证与修正理论”的手段:如残差网络的提出,最初是为解决梯度消失的实验痛点,后续才出现严格的数学证明;“黑箱”仍有未解之谜。

2025-09-11 09:50:28 1019

原创 如何正确使用ChatGPT做数学建模比赛——数学建模AI使用技巧

综合而言,ChatGPT 在数学建模的文字处理和已有知识应用方面表现突出,但在需要创造全新知识精确计算或严格逻辑推导的场景下有明显局限。它不擅长处理全新的研究型问题——如果问题超出训练资料,它可能无法给出有意义的答案。它的推理有时不可靠,尤其在复杂数学推导上会犯错误。此外,ChatGPT 的输出具有一定随机性,不同提问方式可能得到不同答复。这意味着重复询问同一问题,模型可能给出风格或细节上略有差异的结果,稳定性欠佳。最后,ChatGPT 作为语言模型,对上下文的理解停留在语言层面,

2025-09-01 21:47:29 1786

原创 【YOLO11小目标改进】多尺度前馈网络(MSFN)代码

YOLO11涨点优化:小目标 |新颖的多尺度前馈网络(MSFN) | 2024年4月最新成果。加入以下代码到。

2025-08-31 00:10:47 350 2

原创 【SOD】小目标检测的设计原理

将目标物的bbox表示为xywh小目标:短边长度不小于4像素,长边不超过32像素。minwh≥4pixelmaxwh≤32pixel但具体的标准没有明确的标准,这里都统称为小目标检测。

2025-08-29 17:44:50 522

原创 【课设复现】面向水产养殖的图像识别系统

图像识别技术在降低水产养殖劳动力成本,提升养殖精细化程度等方面发挥巨大作用,其在水产养殖中具有广阔的应用前景。目前水产养殖中的计数及种类识别工作多依赖人工,而养殖物运动轨迹提取人工更难以完成。本文针对上述应用场景,基于深度学习设计了两种图像识别算法。其中基于 Yolov5 及 DeepSORT 算法的水下鱼类轨迹提取及计数算法,针对鱼类形态特征,调整了 DeepSORT 中特征提取网络结构,提高了轨迹提取及计数准确率。该。

2025-08-25 17:19:55 607

原创 【TrOCR】根据任务特性设计词表vocab.json

基于对预训练模型文件夹中的各个文件的理解,思考以下问题:1、你觉得哪些文件在TrOCR的训练中起到作用,并简短说明是什么作用。2、哪些文件经过TrOCR的训练调参后发生改变(也就是说通过训练得到的,而不是人物设计的)。3、一些对于TrOCR模型的训练和推理都没有作用的文件,是在哪里起作用,是识别完文字的下一个阶段用到?4、训练不改变内容,在仅仅用于文字识别TrOCR任务的训练推理时,不起作用的文件是否就可以删除?5、预训练权重是这些,那微调后的权重文件夹内容也是这些吗?

2025-08-22 17:47:18 1095

原创 【TrOCR】模型预训练权重各个文件解读

本文介绍了TrOCR预训练权重(microsoft/trocr-base-printed)的下载及文件夹内文件解读。文件夹包含多类关键文件:配置文件(如`config.json`定义模型架构,`generation_config.json`控制文本生成)、权重文件(`model.safetensors`存储预训练参数,安全高效)、分词相关文件(`vocab.json`、`merges.txt`等定义文本处理规则)、图像预处理配置(`preprocessor_config.json`)等。

2025-08-21 23:33:18 1043 3

原创 【TrOCR】用Transformer和torch库实现TrOCR模型

主要用于计算解码器生成文本与真实标签之间的差异,具体是通过 标签移位(label shifting) 策略实现的序列到序列(Seq2Seq)损失计算。,目录下有train和val两个文件夹,分别是images和labels.json。TrOCR 官方使用的损失函数是交叉熵损失(Cross-Entropy Loss),TrOCR 是典型的编码器 - 解码器架构(图像编码器 + 文本解码器),

2025-08-21 23:31:21 354

原创 PP-YOLOE-SOD

相比PP-YOLOE模型,PP-YOLOE-SOD改进点主要包括在neck中引入 Transformer全局注意力机制 以及在回归分支中使用 基于向量的DFL。Transformer在CV中的应用是目前研究较为火热的一个方向。最早的ViT直接将图像分为多个Patch并加入位置Embedding送入Transformer Encoder中,加上相应的分类或者检测头即可实现较好的效果。这里类似,主要加入了Position Embedding和Encoder两个模块,不同的是输入是最后一层特征图。

2025-08-21 13:45:51 394

原创 ResNet怎么想出来的?ResNet二作张祥雨介绍。

张祥雨是人工智能计算机视觉(CV)领域的杰出人才,现任旷视研究院base model组负责人、旷视首席科学家,也是西安交通大学人工智能学院兼职教授。张祥雨2012年毕业于西安交通大学软件学院软件工程专业,获学士学位,之后在西安交通大学与微软亚洲研究院控制科学与工程专业学习,于2017年获得博士学位。在学期间,他曾拿下美国大学生数学建模竞赛(MCM)特等奖提名奖,凭借此获奖经历获得微软亚洲研究院实习资格,并最终成功留下。

2025-08-18 15:33:28 562

原创 【SOD】如何提高目标检测模型在小目标检测任务(SOD)上的性能

下面给你一份(从“性价比最高的改动”到“进阶/研究向”)。按优先级逐步做,通常能明显拉升。

2025-08-17 23:46:25 912

原创 用PaddleDetection套件训练自己的数据集,PP-YOLO-SOD训练全流程

VOC格式数据集,训练集、验证集、测试集划分好,本别一个文件夹。PaddleDetection套件的所有配置文件都在。我下载的是PP-YOLOE+_SOD-l的模型。是官方的VOC数据集的配置文件,自己新建一个。直接运行以下命令安装 libgomp1。我下载的是PP-YOLOE+_l的模型。是官方的模型配置文件,自己新建一个。是官方的模型配置文件,自己新建一个。后面的模型配置文件中需要修改为。随后在模型配置文件中指定路径。随后在模型配置文件中指定路径。目录下,数据集的配置文件在。

2025-08-17 20:41:48 812

原创 YOLO训练脚本汇总

两个变量记录图片和标签地址。统计数据集,并且删除没有标签的图片和没有图片的标签。check_dataset.py, 使用方法:修改变量。cuDNN解压后有下面三个文件夹。分析框的大小分布,中心点分布。

2025-07-30 12:21:13 269

原创 Mamba(SSM、S4、S4)

状态空间模型SSM,20世纪60年代有卡尔曼等研究者提出,概念很在提出。连续SSM一般形式如下:State Equation:x′(t)=Ax(t)+Bu(t)x'(t) = Ax(t) + Bu(t)x′(t)=Ax(t)+Bu(t)其中:Output Equation:y(t)=Cx(t)+Du(t)y(t) = Cx(t) + Du(t)y(t)=Cx(t)+Du(t) 或 y(t)=Cx(t)y(t) = Cx(t)y(t)=Cx(t)其中:离散SSM一般形式如下:与连续SSM相比,x,t,u,

2025-07-23 09:23:00 1157

原创 【论文翻译】Mamba: Linear-Time Sequence Modeling with Selective State Spaces

基础模型目前为深度学习中大多数令人兴奋的应用提供动力,它们几乎都基于Transformer架构及其核心注意力模块。许多亚二次时间架构,如线性注意力机制、门控卷积和循环模型,以及结构化状态空间模型(SSM),已被开发出来以解决Transformer在长序列上计算效率低下的问题,但它们在语言等重要模态上的表现不如注意力机制。我们发现这类模型的一个关键弱点是无法进行基于内容的推理,因此做出了几项改进。

2025-07-21 02:19:42 1152

原创 【SOD】数据集分析——目标框的位置以及大小的分布

都集中在中心,并且上下边缘都没有目标。testB的可能因为数据量少中心有些偏左上角。

2025-07-18 23:37:34 320

翻译 【论文翻译】Attention Is All You Need

主流的序列转导模型基于包含编码器和解码器的复杂循环神经网络或卷积神经网络。性能最佳的模型还通过注意力机制将编码器和解码器连接起来。我们提出了一种新的简单网络架构——Transformer,它完全基于注意力机制,完全摒弃了循环和卷积操作。在两项机器翻译任务上的实验表明,这些模型在质量上更具优势,同时具有更高的可并行性,且训练时间显著减少。我们的模型在WMT 2014英德翻译任务上达到了28.4的BLEU得分,比包括集成模型在内的现有最佳结果提高了2分以上BLEU。

2025-07-18 15:33:02 790

原创 【SOD】数据集分析——衡量两个分布的相似度的指标

KL散度衡量一个概率分布P与另一个参考分布Q之间的信息损失,即“用Q来近似P时,所损失的信息量”。DKLP∣∣Q∑xPxlog⁡PxQxDKL​P∣∣Qx∑​PxlogQxPx​其中,PxP(x)Px是训练集某特征的概率分布(如“小目标占比30%”),QxQ(x)Qx是测试集对应特征的分布(如“小目标占比25%”)。物理意义:若P和Q完全一致,DKL0D_{KL}=0DKL​0;

2025-07-18 14:46:13 1040

原创 【SOD】数据分布是如何影响目标检测精度

围绕“在YOLO系列模型训练中以最小投入(时间、数据量等)获取最大精度回报。

2025-07-16 01:48:13 956

原创 【SOD】有效感受野(ERF)可视化工具

In×3×h×wIn×3×h×w:输入图像nnn:批量大小(样本数),333:输入通道数(如RGB),hhhwww:图像的高和宽。Mn×c×h′×w′Mn×c×h′×w′:模型最终输出的特征图ccc:特征图通道数,h′h'h′w′w'w′:特征图的高和宽。关注对象:输出特征图MMM中每个通道的中心点——Mh′2w′2Mh′/2w′/2​。

2025-07-13 19:36:11 1358 1

原创 TGRS2023 基于小波池化和图增强分类的无人机小目标跟踪

本文提出了一个基于孪生神经网络的航空跟踪器(SmallTrack),该框架通过小波池化层和图增强模块,显著提升了模型在复杂航空场景中精确跟踪小目标的能力,同时保持了72.5帧/秒的高速运行速度。

2025-07-13 13:06:24 506

原创 CVPR2025 Mamba系列论文

MambaOut代码MambaOut: Do We Really Need Mamba for Vision?CVPR2025 MobileMamba代码MobileMamba: Lightweight Multi-Receptive Visual Mamba Network[ECCV24] MambaIR: A Simple Baseline for Image Restoration with State-Space Model[CVPR25] MambaIRv2: Attentive State

2025-07-12 22:43:34 613

原创 YOLO训练时到底需不需要加载预训练权重?全面解析与实践指南

通用场景+标准模型→ 使用预训练权重+冻结微调。小众场景+标准模型→ 预训练权重+解冻微调(小学习率)。模型大幅改进→ 从零训练(需保证数据量>5万张)。学术对比实验→ 统一权重策略(全用或全不用)。预训练权重是“工具”而非“枷锁”,合理使用可事半功倍,盲目排斥则会徒增成本。根据任务特性灵活调整,才能让YOLO模型发挥最佳性能。

2025-07-12 09:12:01 1759

原创 服务器常用命令

运行py文件,断开和服务器连接仍可跑。

2025-07-12 02:29:20 129

原创 CVPR2022 RepLKNet与CVPR2024 UniRepLKNet

图 1. 分别为 ResNet-101/152 和 RepLKNet-13/31 的有效感受野(ERF)。分布范围更广的深色区域表明有效感受野更大。增加网络层数(例如从 ResNet-101 到 ResNet-152)对扩大有效感受野的作用甚微。相比之下,我们的大核模型 RepLKNet 能有效获得更大的有效感受野。之前有个经验性的结论,把一个5x5的卷积核换成两个3x3的,参数量减少但效果相同。ViT是的多头注意力机制(MHSA)可以对输入的特征全局建模,相当于感受野是全局,而CNN只能获取到局部信息。

2025-07-10 20:11:20 693

原创 【YOLO脚本】对模型yaml文件测试

该测试主要验证模型配置的语法正确性和基本运行能力,是模型训练前的必要预检查,但不能替代完整的训练验证。建议在测试通过后,仍进行小规模训练(如 1-2 个 epoch)以验证训练流程的完整性。用变量存储yaml模型文件地址。

2025-07-10 18:25:47 352

原创 无人机识别比赛记录与分析

摘要:该研究基于YOLOv11模型进行反无人机检测算法优化,对比了n-Scale和l-Scale两种模型配置。使用1万7千张训练数据,测试了不同参数设置对检测性能的影响。实验表明,调整置信度评分并未提升线上评测分数,而大模型虽参数量增加但需调整显存配置。评测指标包含检测精度(Precision/Recall/F1)、跟踪性能(MOTA/IDF1)及模型效率(FPS/参数量)。可视化结果显示检测准确,但置信度评分优化需进一步研究。(149字)

2025-07-10 16:10:36 485

原创 【YOLO脚本】推理测试集并保存结果CSV

imgname(图片名:xxx.jpg), label(标签数字:0), x1(左上坐标), y1(左上坐标), x2(右上坐标), y2(右上坐标), x3(右下坐标), y3(右下坐标), x4(左下坐标), y4(左下坐标), score(分数:0.99)自行修改model_path,test_dir,output_csv的地址。提交内容:下载初赛A榜图片,进行线下算法开发,提交CSV文件;提交格式:提交测试集的结果CSV文件;压缩包文件命名:参赛选手ID+提交日期;

2025-07-10 12:11:45 366

原创 【YOLO脚本】yolo格式数据集删除缺失删除图片和标签

本文介绍了一个用于分析和清理YOLO格式数据集的Python脚本。该脚本主要功能包括:统计图片和标签文件数量,识别无对应的图片或标签文件,以及检测空标签文件。脚本支持两种模式:干运行模式(仅显示统计信息)和执行清理模式(实际删除无效文件)。使用方法简单,只需指定图片和标签文件夹路径即可。该工具能有效清理数据集,确保图片和标签文件的对应关系,提高目标检测模型训练的数据质量。

2025-07-10 12:00:58 505

原创 【YOLO脚本】yolo格式数据集可视化检测脚本

本文介绍了一个可视化YOLO格式目标检测数据集的Python脚本。该脚本通过随机抽取3张图片,在图片上绘制对应的标注框和类别标签进行可视化展示。主要功能包括:获取图片路径和标签路径,随机选择样本图片,读取YOLO格式的标注信息,将归一化坐标转换为像素坐标,并在图片上绘制边界框和类别标签。结果显示为带有图片名称的标注可视化结果,适用于快速检查YOLO数据集标注质量。脚本使用了OpenCV和Matplotlib库,支持常见图像格式,并设置了中文显示支持。

2025-07-10 11:55:23 247

原创 YOLOv11训练超参数

YOLO模型训练的关键设置包括模型数据配置(模型路径、数据集路径、类别选择)、训练控制参数(轮次、早停、恢复训练)、计算资源配置(批量大小、设备选择、混合精度)等。批量大小支持自动内存优化,设备可选择GPU/CPU,混合精度训练可加速并节省显存。这些设置的合理调整对模型性能、速度和准确性至关重要。详细配置可参考官方文档。

2025-07-10 02:41:41 1402

原创 GPU相关概念

GPU(图形处理器),又称显示核心、视觉处理器、显示芯片,是一种专门负责图像运算的微处理器,广泛应用于个人电脑、工作站、游戏机及移动设备(如平板电脑、智能手机)。图形渲染:将计算机生成的数字信号转换为显示器可识别的图像信号,控制显示器的色彩、分辨率和刷新率,是“人机交互”的关键组件。并行计算:凭借大量计算核心(远多于CPU),擅长同时处理海量重复任务,因此在深度学习、科学计算、密码破解等场景中表现远超CPU。

2025-07-10 02:18:23 1145

原创 microsoft-UniLM项目介绍

存放数据增强相关代码。README.md:项目说明,含概述、使用等。:使trocr成为Python包。bpe.py:实现字节对编码算法。:数据转SROIE格式。data.py:负责数据加载与预处理。:具体数据增强操作。deit.py:DEIT模型相关代码。:生成数据或结果。py:图像推理。:记录依赖包。scoring.py:计算评估指标。task.py:定义任务逻辑。:定义TrOCR模型架构。:UniLM模型权重。:UniLM模型代码。:ViT模型代码。

2025-07-10 01:16:30 1149

原创 对于AI的思考

你提到的“不做选择题,做填空题”,其实精准指出了现有神经架构搜索(NAS)的瓶颈。目前的NAS虽然能自动找结构,但本质上还是在人类预设的“搜索空间”里选(比如预设“卷积/Transformer块的组合方式”“层数范围”),相当于“在给定菜单里点菜”。而你想要的是“让模型自己创造新的菜”——比如发明人类从未设计过的基础算子(不是卷积、注意力,而是全新的信息处理单元),或者跳出“层叠式”“图结构”等现有框架,生成更灵活的拓扑结构。生成式架构设计。

2025-07-10 01:00:27 981

原创 fairseq环境配置错误记录

【代码】fairseq环境配置错误记录。

2025-07-09 16:15:30 153

原创 【YOLO脚本】数据集yaml文件检查

【代码】【YOLO脚本】数据集yaml文件检查。

2025-07-09 13:14:59 291

原创 【YOLO脚本】数据集标签VOC格式转换YOLO格式

【代码】【YOLO脚本】数据集标签VOC格式转换YOLO格式。

2025-07-09 02:13:08 218

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除