Virgil139-优快云博客

原创【TrOCR】第一版记录：在自己数据集上训练TrOCR

TrOCR是一种端到端的文本识别方法，它结合了预训练的图像Transformer和文本Transformer模型，利用Transformer架构同时进行图像理解和字块级别的文本生成。TrOCR: 基于预训练模型的Transformer光学字符识别李明浩，吕腾超，崔磊，卢一娟，迪内·弗洛伦西奥，张查，李周军，魏富如，AAAI 2023。TrOCR模型也以Huggingface格式提供。文档][模型模型参数数量测试集得分62MIAM4.22（区分大小写的字符错误率）TrOCR-Base。

2025-07-06 20:03:05 1143

原创【Dogfight论文复现】无人机视频中检测无人机的目标检测模型

论文名称：Dogfight: Detecting Drones from Drones Videos任务：复现这篇文章的Dogfight模型，也就是再自己本地，NPS数据集上跑通这个模型的代码，得到模型，成功推理，并达到论文中的精度数据集准备→环境搭建→模型实现→训练配置→推理验证→精度调优。

2025-09-29 14:02:29 1208

原创 YOLO改进Head，SEAM和MultiSEAM代码实现

声明：SEAM模块的代码并非完全独立完成，部分有参考以及其他专栏的改进系列。

2025-09-28 20:48:33 268 5

原创窥探黑箱——解释深度学习模型“为何有效”的理论、定律、思想

深度学习的有效性不是单一理论的支撑，而是**“底层数学理论（逼近、统计、优化）→中层设计思想（分层、聚焦、复用）→具体结构逻辑（感受野、残差、注意力）”** 的多层协同结果。理论是“指导”而非“万能公式”：所有理论都有假设条件（如万能逼近定理假设“激活函数连续”“紧集输入”），现实中需结合实验调整（如ReLU虽不连续，但实践中效果优于Sigmoid）；实验是“验证与修正理论”的手段：如残差网络的提出，最初是为解决梯度消失的实验痛点，后续才出现严格的数学证明；“黑箱”仍有未解之谜。

2025-09-11 09:50:28 1019

原创如何正确使用ChatGPT做数学建模比赛——数学建模AI使用技巧

综合而言，ChatGPT 在数学建模的文字处理和已有知识应用方面表现突出，但在需要创造全新知识精确计算或严格逻辑推导的场景下有明显局限。它不擅长处理全新的研究型问题——如果问题超出训练资料，它可能无法给出有意义的答案。它的推理有时不可靠，尤其在复杂数学推导上会犯错误。此外，ChatGPT 的输出具有一定随机性，不同提问方式可能得到不同答复。这意味着重复询问同一问题，模型可能给出风格或细节上略有差异的结果，稳定性欠佳。最后，ChatGPT 作为语言模型，对上下文的理解停留在语言层面，

2025-09-01 21:47:29 1786

原创【YOLO11小目标改进】多尺度前馈网络(MSFN)代码

YOLO11涨点优化：小目标 |新颖的多尺度前馈网络(MSFN) | 2024年4月最新成果。加入以下代码到。

2025-08-31 00:10:47 350 2

原创【SOD】小目标检测的设计原理

将目标物的bbox表示为xywh小目标：短边长度不小于4像素，长边不超过32像素。minwh≥4pixelmaxwh≤32pixel但具体的标准没有明确的标准，这里都统称为小目标检测。

2025-08-29 17:44:50 522

原创【课设复现】面向水产养殖的图像识别系统

图像识别技术在降低水产养殖劳动力成本，提升养殖精细化程度等方面发挥巨大作用，其在水产养殖中具有广阔的应用前景。目前水产养殖中的计数及种类识别工作多依赖人工，而养殖物运动轨迹提取人工更难以完成。本文针对上述应用场景，基于深度学习设计了两种图像识别算法。其中基于 Yolov5 及 DeepSORT 算法的水下鱼类轨迹提取及计数算法，针对鱼类形态特征，调整了 DeepSORT 中特征提取网络结构，提高了轨迹提取及计数准确率。该。

2025-08-25 17:19:55 607

原创【TrOCR】根据任务特性设计词表vocab.json

基于对预训练模型文件夹中的各个文件的理解，思考以下问题：1、你觉得哪些文件在TrOCR的训练中起到作用，并简短说明是什么作用。2、哪些文件经过TrOCR的训练调参后发生改变（也就是说通过训练得到的，而不是人物设计的）。3、一些对于TrOCR模型的训练和推理都没有作用的文件，是在哪里起作用，是识别完文字的下一个阶段用到？4、训练不改变内容，在仅仅用于文字识别TrOCR任务的训练推理时，不起作用的文件是否就可以删除？5、预训练权重是这些，那微调后的权重文件夹内容也是这些吗？

2025-08-22 17:47:18 1095

原创【TrOCR】模型预训练权重各个文件解读

本文介绍了TrOCR预训练权重（microsoft/trocr-base-printed）的下载及文件夹内文件解读。文件夹包含多类关键文件：配置文件（如`config.json`定义模型架构，`generation_config.json`控制文本生成）、权重文件（`model.safetensors`存储预训练参数，安全高效）、分词相关文件（`vocab.json`、`merges.txt`等定义文本处理规则）、图像预处理配置（`preprocessor_config.json`）等。

2025-08-21 23:33:18 1043 3

原创【TrOCR】用Transformer和torch库实现TrOCR模型

主要用于计算解码器生成文本与真实标签之间的差异，具体是通过标签移位（label shifting）策略实现的序列到序列（Seq2Seq）损失计算。，目录下有train和val两个文件夹，分别是images和labels.json。TrOCR 官方使用的损失函数是交叉熵损失（Cross-Entropy Loss），TrOCR 是典型的编码器 - 解码器架构（图像编码器 + 文本解码器），

2025-08-21 23:31:21 354

原创 PP-YOLOE-SOD

相比PP-YOLOE模型，PP-YOLOE-SOD改进点主要包括在neck中引入 Transformer全局注意力机制以及在回归分支中使用基于向量的DFL。Transformer在CV中的应用是目前研究较为火热的一个方向。最早的ViT直接将图像分为多个Patch并加入位置Embedding送入Transformer Encoder中，加上相应的分类或者检测头即可实现较好的效果。这里类似，主要加入了Position Embedding和Encoder两个模块，不同的是输入是最后一层特征图。

2025-08-21 13:45:51 394

原创 ResNet怎么想出来的？ResNet二作张祥雨介绍。

张祥雨是人工智能计算机视觉（CV）领域的杰出人才，现任旷视研究院base model组负责人、旷视首席科学家，也是西安交通大学人工智能学院兼职教授。张祥雨2012年毕业于西安交通大学软件学院软件工程专业，获学士学位，之后在西安交通大学与微软亚洲研究院控制科学与工程专业学习，于2017年获得博士学位。在学期间，他曾拿下美国大学生数学建模竞赛（MCM）特等奖提名奖，凭借此获奖经历获得微软亚洲研究院实习资格，并最终成功留下。

2025-08-18 15:33:28 562

原创【SOD】如何提高目标检测模型在小目标检测任务（SOD）上的性能

下面给你一份（从“性价比最高的改动”到“进阶/研究向”）。按优先级逐步做，通常能明显拉升。

2025-08-17 23:46:25 912

原创用PaddleDetection套件训练自己的数据集，PP-YOLO-SOD训练全流程

VOC格式数据集，训练集、验证集、测试集划分好，本别一个文件夹。PaddleDetection套件的所有配置文件都在。我下载的是PP-YOLOE+_SOD-l的模型。是官方的VOC数据集的配置文件，自己新建一个。直接运行以下命令安装 libgomp1。我下载的是PP-YOLOE+_l的模型。是官方的模型配置文件，自己新建一个。是官方的模型配置文件，自己新建一个。后面的模型配置文件中需要修改为。随后在模型配置文件中指定路径。随后在模型配置文件中指定路径。目录下，数据集的配置文件在。

2025-08-17 20:41:48 812

原创 YOLO训练脚本汇总

两个变量记录图片和标签地址。统计数据集，并且删除没有标签的图片和没有图片的标签。check_dataset.py, 使用方法：修改变量。cuDNN解压后有下面三个文件夹。分析框的大小分布，中心点分布。

2025-07-30 12:21:13 269

原创 Mamba（SSM、S4、S4）

状态空间模型SSM，20世纪60年代有卡尔曼等研究者提出，概念很在提出。连续SSM一般形式如下：State Equation：x′(t)=Ax(t)+Bu(t)x'(t) = Ax(t) + Bu(t)x′(t)=Ax(t)+Bu(t)其中：Output Equation：y(t)=Cx(t)+Du(t)y(t) = Cx(t) + Du(t)y(t)=Cx(t)+Du(t) 或 y(t)=Cx(t)y(t) = Cx(t)y(t)=Cx(t)其中：离散SSM一般形式如下：与连续SSM相比，x,t,u,

2025-07-23 09:23:00 1157

原创【论文翻译】Mamba: Linear-Time Sequence Modeling with Selective State Spaces

基础模型目前为深度学习中大多数令人兴奋的应用提供动力，它们几乎都基于Transformer架构及其核心注意力模块。许多亚二次时间架构，如线性注意力机制、门控卷积和循环模型，以及结构化状态空间模型（SSM），已被开发出来以解决Transformer在长序列上计算效率低下的问题，但它们在语言等重要模态上的表现不如注意力机制。我们发现这类模型的一个关键弱点是无法进行基于内容的推理，因此做出了几项改进。

2025-07-21 02:19:42 1152

原创【SOD】数据集分析——目标框的位置以及大小的分布

都集中在中心，并且上下边缘都没有目标。testB的可能因为数据量少中心有些偏左上角。

2025-07-18 23:37:34 320

翻译【论文翻译】Attention Is All You Need

主流的序列转导模型基于包含编码器和解码器的复杂循环神经网络或卷积神经网络。性能最佳的模型还通过注意力机制将编码器和解码器连接起来。我们提出了一种新的简单网络架构——Transformer，它完全基于注意力机制，完全摒弃了循环和卷积操作。在两项机器翻译任务上的实验表明，这些模型在质量上更具优势，同时具有更高的可并行性，且训练时间显著减少。我们的模型在WMT 2014英德翻译任务上达到了28.4的BLEU得分，比包括集成模型在内的现有最佳结果提高了2分以上BLEU。

2025-07-18 15:33:02 790

原创【SOD】数据集分析——衡量两个分布的相似度的指标

KL散度衡量一个概率分布P与另一个参考分布Q之间的信息损失，即“用Q来近似P时，所损失的信息量”。DKLP∣∣Q∑xPxlog⁡PxQxDKLP∣∣Qx∑PxlogQxPx其中，PxP(x)Px是训练集某特征的概率分布（如“小目标占比30%”），QxQ(x)Qx是测试集对应特征的分布（如“小目标占比25%”）。物理意义：若P和Q完全一致，DKL0D_{KL}=0DKL0；

2025-07-18 14:46:13 1040

原创【SOD】数据分布是如何影响目标检测精度

围绕“在YOLO系列模型训练中以最小投入（时间、数据量等）获取最大精度回报。

2025-07-16 01:48:13 956

原创【SOD】有效感受野(ERF)可视化工具

In×3×h×wIn×3×h×w：输入图像nnn：批量大小（样本数），333：输入通道数（如RGB），hhhwww：图像的高和宽。Mn×c×h′×w′Mn×c×h′×w′：模型最终输出的特征图ccc：特征图通道数，h′h'h′w′w'w′：特征图的高和宽。关注对象：输出特征图MMM中每个通道的中心点——Mh′2w′2Mh′/2w′/2。

2025-07-13 19:36:11 1358 1

原创 TGRS2023 基于小波池化和图增强分类的无人机小目标跟踪

本文提出了一个基于孪生神经网络的航空跟踪器（SmallTrack），该框架通过小波池化层和图增强模块，显著提升了模型在复杂航空场景中精确跟踪小目标的能力，同时保持了72.5帧/秒的高速运行速度。

2025-07-13 13:06:24 506

原创 CVPR2025 Mamba系列论文

MambaOut代码MambaOut: Do We Really Need Mamba for Vision?CVPR2025 MobileMamba代码MobileMamba: Lightweight Multi-Receptive Visual Mamba Network[ECCV24] MambaIR: A Simple Baseline for Image Restoration with State-Space Model[CVPR25] MambaIRv2: Attentive State

2025-07-12 22:43:34 613

原创 YOLO训练时到底需不需要加载预训练权重？全面解析与实践指南

通用场景+标准模型→ 使用预训练权重+冻结微调。小众场景+标准模型→ 预训练权重+解冻微调（小学习率）。模型大幅改进→ 从零训练（需保证数据量＞5万张）。学术对比实验→ 统一权重策略（全用或全不用）。预训练权重是“工具”而非“枷锁”，合理使用可事半功倍，盲目排斥则会徒增成本。根据任务特性灵活调整，才能让YOLO模型发挥最佳性能。

2025-07-12 09:12:01 1759

原创服务器常用命令

运行py文件，断开和服务器连接仍可跑。

2025-07-12 02:29:20 129

原创 CVPR2022 RepLKNet与CVPR2024 UniRepLKNet

图 1. 分别为 ResNet-101/152 和 RepLKNet-13/31 的有效感受野（ERF）。分布范围更广的深色区域表明有效感受野更大。增加网络层数（例如从 ResNet-101 到 ResNet-152）对扩大有效感受野的作用甚微。相比之下，我们的大核模型 RepLKNet 能有效获得更大的有效感受野。之前有个经验性的结论，把一个5x5的卷积核换成两个3x3的，参数量减少但效果相同。ViT是的多头注意力机制（MHSA）可以对输入的特征全局建模，相当于感受野是全局，而CNN只能获取到局部信息。

2025-07-10 20:11:20 693

空空如也

空空如也