2201_75343767-优快云博客

原创 DETR（DEtection TRansformer）

区别与faster-rcnn、YOLO、NMS的一种纯transformer的目标检测算法。

2025-06-10 12:12:43 1453

原创 Vision Transformer

Vision Transformer 是基于Transformer来改进的可以进行图片识别的算法。，它与Transformer的不同是没有Decoder层，只需要借助Transformer的Encoder层来捕捉到全局特征输入到MLP来进行输出的类别概率计算，因此在embedding需要对图像进行处理，将其切割成每个patch再对每个patch进行flatten后通过线性投影转成固定维度的向量。这里主要讲解一下开始的embedding层。

2025-06-09 10:43:13 670

原创 Transformer

Transformer 是一种基于“注意力机制”的神经网络架构，广泛应用于自然语言处理任务（如机器翻译、文本生成、问答等）。它完全摒弃了传统的 RNN / CNN 结构，依靠Self-Attention + 多层堆叠 + 残差连接来实现强大的表示学习能力。实现了真正意义上的机器理解文章语义，可以用在翻译、生成、理解等任务上。

2025-06-08 19:11:58 720

原创 yolov12中的损失函数

其中p为经过sigmoid之后的预测值属于0-1.（2）距离损失项：中心点欧氏距离。（1）IoU：重叠程度损失项。（3）长宽比一致性项 v。

2025-06-08 10:50:15 1028

原创 RepConv-BN与卷积权重参数融合方法以及重参数化多分支合并加速

"3x3 convolutions have higher practical inference speed than 1x1 on devices like GPUs with cuDNN acceleration, despite having higher FLOPs." — R

2025-06-04 15:48:08 583

原创模型剪枝-Network Slimming

模型剪枝是一种优化神经网络的技术，通过移除不重要的权重或神经元来降低模型的复杂度，同时尽量保持其性能。本文基于经典论文《Learning Efficient Convolutional Networks through Network Slimming》实现模型剪枝，主要步骤包括训练模型、剪枝和再次训练。剪枝过程中，BatchNorm（BN）和L1正则化是关键。BN通过标准化特征图，缓解内部协变量偏移，加速收敛并提高稳定性，其缩放因子γ可用于判断通道重要性，γ接近0的通道可被剪除。L1正则化则通过使BN层的

2025-05-23 19:44:56 657

原创 MMPretrain的使用以及训练自己的数据集

MMPretrain是一个基于PyTorch的深度学习框架，专注于图像分类任务。用户可以通过GitHub下载其压缩包，并使用pip命令安装相关依赖。在配置文件中，用户可以选择并修改预训练模型（如resnet18_8xb32_in1k.py）以适应特定任务，例如将1000类分类改为102类花朵分类。通过自定义数据集加载代码（如myimagenet.py），用户可以加载自己的数据集并进行训练。MMPretrain提供了灵活的配置选项和丰富的预训练模型，能够快速构建和训练高性能的图像分类模型。

2025-05-21 21:15:12 1862

原创对抗生成网络

总结 GAN

2025-05-12 17:13:23 1891 1

2201_75343767的博客