知其所以然也-优快云博客

原创从零理解轻量化隐式bev transformer网络WidthFormer原理和源码1-极坐标的3D位置编码

WidthFormer是一种轻量级且易于部署的BEV变换方法，它使用单层transformer解码器来计算BEV表示。除此之外，还提出了参考位置编码（RefPE），这是一种新的用于3D对象检测的位置编码机制，以辅助WidthFormer的视图转换，重点来啦！它还可以用于以即插即用的方式提高稀疏3D检测器的性能。

2024-07-17 10:37:46 596

原创从0实现-＞训练pytorch模型-＞转onnx-＞tensorrt模型序列化-＞Tensorrt推理

TensorRT模型序列化的作用主要是将训练好的深度学习模型（通常是以ONNX或其他格式保存的）转换为一个能够在TensorRT中运行的优化后的引擎（engine）。在将PyTorch的.pth模型转换为TensorRT的.plan或.trt模型之前，先将其转换为ONNX（Open Neural Network Exchange）格式的主要目的是为了实现模型在不同深度学习框架之间的互操作性和可移植性。head部分是一个单独的线性层，用于将backbone输出的特征转换为最终的预测值。

2024-05-19 10:30:00 1025

原创 BUG-mmdet解析数据时候，TypeError: expected dtype object, got ‘numpy.dtype[bool_]‘

1.注释@jit ，但是会导致处理非常慢。

2024-10-26 14:45:02 804

原创 BUG-AttributeError: ‘EnforcedForest‘ object has no attribute ‘node‘

networkx版本有问题，原版本为2.2，现在为2.6.3。

2024-10-14 10:56:14 433

原创环形链表2证明

快慢指针相遇后，其中一个指回头部，然后同步前进。

2024-06-16 22:16:20 222

原创 transfomer中attention为什么要除以根号d_k

得到矩阵 Q, K, V之后就可以计算出 Self-Attention 的输出了，计算的公式如下:Attention(Q,K,V)=Softmax(QKTdk)VAttention(Q,K,V)=Softmax(\frac{QK^T}{\sqrt{d_k}})VAttention(Q,K,V)=Softmax(dkQKT)V除以维度的开方,可以将数据向0方向集中,使得经过softmax后的梯度更大.从数学上分析,可以使得QK的分布和Q/K保持一致,对于两个独立的正态分布而言，两者的加法的期望和

2024-06-01 16:37:47 1594

原创点是否在三角形内C++源码实现

思路：面积和：abc == obc+aoc+abo,应该有更简洁的方法，但是这个方法思路更简单。

2024-05-13 10:30:00 422

原创点到直线距离C++源码实现

思路1(如果不记得叉乘公式的话)：利用点乘：思路2：利用叉乘：定义Point结构体，Line结构体包含两个点成员，Vec结构体代表向量

2024-05-13 10:00:00 487

原创 BUG-ModuleNotFoundError: No module named ‘torchvision.models.utils‘

版本问题，新版本该函数在torch.hub。

2024-05-12 10:30:00 322

原创 Note-backbone预训练权重对模型收敛速度的影响和mmlab实验测试

在深度学习模型训练过程中，通常需要随机初始化神经网络的参数。然而，如果采用Backbone预训练权重进行初始化，模型就能从一个已经学习过大量数据的权重开始，而不是从零开始。这可以大大提高模型在初始阶段的性能，因为它已经具备了一定的特征提取能力。：由于Backbone预训练权重已经包含了大量的通用特征表示，这些特征表示对于许多计算机视觉任务都是有用的。因此，当使用这些预训练权重进行模型训练时，模型可以更快地适应新的任务，并加速收敛。

2024-05-06 10:30:00 330

原创 DETR类型检测网络实验2---优化测试

Anchor-DETR提出用预定义的参考点生成query_pos;

2024-05-05 10:30:00 424

原创 DETR类型检测网络---思考和Tricks测试

中,query_pos(query_embed)：预设的shape为(n,embed_dim),query：预设的shape为(n,embed_dim),reference_point:利用query_pos线性映射为shape(n,3)中是预设的query_pos shape为(n,embed_dim), 而query=zeros.shape为(n,embed_dim)query_pos(query_embed)：利用reference_point线性映射为shape(n,embed_dim)

2024-05-04 16:56:41 946

原创 DN-DETR的原理和源码解读

known_query如果跨组提取了对应的box信息也等于给了gt的先验,不利于噪声学习.因次设置att_mask,防止以上两种干扰.2.decoder的自注意力,ori_query如果提取到known_query信息等于给了gt的先验,不利于模型学习.3:每一张图的gt数量不一致,那么cat(query,known_query)数量不一致,无法batch训练.最后的query_pos=[b,lmax+l_ori,dim],为什么不搞个mask标记补充的000。解决方法:老一套,少的图补零.

2024-04-30 22:25:08 385

原创 Conditional-DETR的原理和源码解读

在cross_att时候,内容信息和位置信息解偶qcontentqpos∗kcontentkposT改成catqcqp∗catkckpT首先,把特征侧和目标侧分为内容信息(content)和位置(content)把query分为q_content和q_pos,更好理解query.对应于我之前说的query和query_pos.qc∗kcTqp∗kpT。

2024-04-08 12:16:00 1218 1

原创 C++ unordered_map的用法

在这个例子中，我们定义了一个 Person 结构体，并为它提供了一个哈希函数。这个哈希函数结合了 name 和 age 成员的哈希值来生成 Person 的唯一哈希值。然后，我们可以使用这个自定义类型作为 unordered_map 的键。unordered_map 在 C++ 中是一个非常有用的容器，它允许你存储键值对，并且提供了基于键的快速查找。

2024-04-06 17:15:48 644

原创 Note-模型的特征学习过程分析

将数据的特征分为,有用特征和无用特征(噪声).有用特征与任务有关,无用特征与任务无关.模型的学习过程就是增大有用特征的权重并减少无用特征的权重的过程.ya0x0a1x1loss0.5∗ylabel−y2dlossdyy−ylabeldlossdadlossdy∗dyday−ylabel∗xanextaηylabe。

2024-04-06 14:21:32 1291

原创目标检测中的mAP计算原理和源码实现

在目标检测任务中，mAP（mean Average Precision，平均精度均值）是一个非常重要的评价指标，用于衡量模型在多个类别上的平均性能。它综合考虑了模型在不同召回率下的精确率，能够全面反映模型在检测任务中的表现。综合性评估：mAP能够综合考虑模型在不同召回率下的精确率，避免了单一指标（如准确率或召回率）可能带来的片面性。多类别比较：对于多类别的目标检测任务，mAP可以计算每个类别的AP，然后取平均值得到全局的mAP，从而方便比较模型在不同类别上的性能。

2024-03-24 18:58:19 1151

原创 DeformableAttention的原理解读和源码实现

多尺度特征图尺寸记录:spatial_shapes:([[180, 180],[ 90, 90],[ 45, 45],[ 23, 23]])sampling_locations原本为采样点位置,范围为[0,1),为了适应F.grid_sample采样函数的用法,调整为[-1,1)分布,意思是,900个query在特征图(32,level_h,level_w)中各采样4个点,采样结果为900个对应的4个通道为32的像素特征.reshape为正常图像torch.Size([b*8,32,180,180]

2024-03-17 15:06:50 3911 1

原创 DETR3d原理和源码解读

不同于LSS、BEVDepth的bottom-up式，先进行深度估计，设计2D转3D的模块。DETR3D是一种3D转2D的top-down思路。先预设一系列预测框的查询向量object querys，利用它们生成3D reference point，将这些3D reference point 利用相机参数转换矩阵，投影回2D图像坐标，并根据他们在图像的位置去找到对应的图像特征，用图像特征和object querys做cross-attention，不断refine object querys。

2024-03-04 10:36:25 3054 2

原创 Vision Transfomer系列第二节---Tricks测试

这种重叠可以提高图像块之间的信息交互,可能会影响模型的性能和效果。实验可知,适当的head_num可以提高模型的拟合能力,但是不是越多越好,需要根据任务的复杂情况和embeding维度去调整.本处实验其实效果不明显,可能是任务过于简单的原因.卷积核大小是20,stride取16,padding取2,输入为224x224时,输出也为14x14,但是相邻图像块之间有2圈像素的交集.block作为transfomer类模型的核心组件,block的重复次数是一个超参数,直接影响到模型的深度和表达能力.

2024-02-20 14:19:00 1261 1

原创 Vision Transfomer系列第二节---复现过程的Bugs记录

1.transfomer模型的训练收敛速度确实很慢,一个分类就需要训练好很多个epoch (花分类45epochs左右)2.所以说看懂原理和代码还是远远不够的,复现起来还是有很多细节需要注意的,确实是纸上学来终觉浅,绝知此事要躬行。

2024-02-06 00:09:57 958

原创 Vision Transfomer系列第一节---从0到1的源码实现

vit是视觉transfomer最经典的模型,复现一次代码十分有必要,中间会产生很多思考和问题.后面章节将会更有价值,我将会:1.利用本次的代码进行很多思考和trick的验证2.总结本次代码的BUG们,及其产生的原理和解决方法如需获取全套代码请参考。

2024-02-04 20:51:56 1124

原创 Note-归一化层和前向源码

深度学习中常见的归一化层包括批量归一化（Batch Normalization）、层归一化（Layer Normalization）、实例归一化（Instance Normalization）、组归一化（Group Normalization）。批量归一化（Batch Normalization）：BN专注于标准化任何特定层的输入（即来自先前层的激活）。标准化输入意味着网络中任何层的输入应具有大约为零的均值和单位方差。

2024-01-29 22:57:44 976

原创 Note-模型复杂度分析和mmlab实验测试

（floating-point operations per second）的缩写。“每秒浮点运算次数”，“每秒峰值速度”是“每秒所执行的浮点运算次数”。它常被用来估算电脑的执行效能，尤其是在使用到大量浮点运算的科学计算领域中。正因为FLOPS字尾的那个S，代表秒，而不是复数，所以不能省略掉。:乘加次数,计算量对应时间复杂度flopscovh∗w∗k2∗cin∗coutflopsdownsample0flop。

2024-01-28 21:45:37 940

原创 Note-python的深浅拷贝

在Python中，对象的拷贝可以是浅拷贝（shallow copy）或深拷贝（deep copy），这两者之间的主要区别在于它们处理复合对象（如列表、字典或其他包含其他对象的对象）的方式不同。浅拷贝会创建一个新对象，但这个新对象包含的是对原始对象中元素的引用，而不是元素本身的拷贝。因此，如果原始对象中的元素是可变的，并且在新对象或原始对象中修改了这些元素，那么这些更改将反映在另一个对象中，因为它们引用的是相同的对象。

2024-01-27 22:25:13 444

原创 iou的cpu和gpu源码实现

IoU（Intersection over Union）是一种测量在特定数据集中检测相应物体准确度的一个标准，通常用于目标检测中预测框（bounding box）之间准确度的一个度量（预测框和实际目标框）。IoU计算的是“预测的边框”和“真实的边框”的交叠率，即它们的交集和并集的比值。最理想情况是完全重叠，即比值为1。IoU的计算方法如下：计算两个框的交集面积，即两个框的左、上、右、下四个点的交集。计算两个框的并集面积，即两个框的左、上、右、下四个点的并集。

2024-01-23 23:44:14 638

原创源码实现简介

总的来说，深度学习在自动驾驶感知中发挥着重要的作用，为自动驾驶技术的发展带来了巨大的潜力。相信在未来的研究和实践中，这些问题将得到有效的解决，推动自动驾驶技术的进一步发展和应用。其次，深度学习具有很强的鲁棒性，能够处理各种复杂的驾驶环境，如不同的光照条件、遮挡、动态目标等。现成的库和框架固然强大且方便使用，但很多时候，如果我们不清楚其背后的工作机制，往往会限制我们的技术视野和创新能力。无论是为了提高自己的技术能力、增强对技术的深入理解，还是为了在工作中提高核心竞争力，自己动手实现都是一个极好的途径。

2024-01-23 23:41:32 765

原创 transfomer中正余弦位置编码的源码实现

Transformer模型抛弃了RNN、CNN作为序列学习的基本模型。循环神经网络本身就是一种顺序结构，天生就包含了词在序列中的位置信息。当抛弃循环神经网络结构，完全采用Attention取而代之，这些词序信息就会丢失，模型就没有办法知道每个词在句子中的相对和绝对的位置信息。因此，有必要把词序信号加到词向量上帮助模型学习这些信息，位置编码（Positional Encoding）就是用来解决这种问题的方法。关于位置编码更多介绍参考的。

2024-01-17 10:00:00 639

原创 Note-transfomer的位置编码

在transformer的encoder和decoder的输入层中，使用了Positional Encoding，使得最终的输入满足：这里，input_embedding的shape为[n,b,embed_dim],positional_encoding和input_embedding形状一致.

2024-01-16 23:57:30 1154

原创 transfomer中Decoder和Encoder的base_layer的源码实现

Encoder和Decoder共同组成transfomer,分别对应图中左右浅绿色框内的部分.Encoder：目的：将输入的特征图转换为一系列自注意力的输出。工作原理：首先，通过卷积神经网络（CNN）提取输入图像的特征。然后，这些特征通过一系列自注意力的变换层进行处理，每个变换层都会将特征映射进行编码并产生一个新的特征映射。这个过程旨在捕捉图像中的空间和通道依赖关系。作用：通过处理输入特征，提取图像特征并进行自注意力操作，为后续的目标检测任务提供必要的特征信息。

2024-01-16 00:30:04 1310 1

原创 transfomer中Multi-Head Attention的源码实现

Multi-Head Attention是一种注意力机制,是transfomer的核心机制.Multi-Head Attention的原理是通过将模型分为多个头，形成多个子空间，让模型关注不同方面的信息。每个头独立进行注意力运算，得到一个注意力权重矩阵。输出的结果再通过线性变换和拼接操作组合在一起。这样可以提高模型的表示能力和泛化性能。在Multi-Head Attention中，每个头的权重矩阵是随机初始化生成的，并在训练过程中通过梯度下降等优化算法进行更新。

2024-01-14 11:34:14 798 1

原创博客知识库

第i个元素就是第i个通道上全部batch张输出特征图所有元素的平均值和方差,所shape就是特征图shapeweight和bias分别对应 γ，β.有bn时cov可以不用bia在训练过程中,mean和std是统计得到的,然后在迭代过程中动态累加,m*si-1+(1-m)*si,m为历史保留比,对应pytorch的momenta参数,test过程中使用训练过程的统计结果。

2024-01-08 23:50:29 785

原创方法-PC端远程调试分布式训练

一些简单的代码我们使用Pycharm本地调试就能运行成功，但在诸如使用GPU进行分布式训练和推断等场景中，由于我们本地的电脑没有GPU或者没有多块GPU而无法运行这些程序。如果此时我们手头恰好有自己/公司/学校的GPU服务器资源，我们就可以使用这些GPU服务器进行远程调试/运行，无需本地运行代码。

2023-12-13 14:58:39 491

原创问题:batchnormal训练单个batch_size就会报错吗

Batch Normalization在每个batch_size为1的情况下是可以正常工作的。标准的Batch Normalization通常使用较大的batch_size，这样可以更好地估计总体分布，加速收敛，并减少内部协变量偏移的问题。然而，当batch_size为1时，Batch Normalization的效果可能会降低，因为它失去了批处理的优点，比如能够更好地估计网络输入的总体分布。在标准的神经网络训练中，每一层的输入分布都会随着训练的进行而发生变化，这使得网络训练变得困难。

2023-12-08 17:29:49 774

原创 BUG-Expected more than 1 value per channel when training, got input size torch.Size([1, xxx, 1, 1])

当size=Size([1, xxx, 1, 1]), size_prods是size[0] * size[2] * size[3]当size=Size([1, xxx]), size_prods是size[0]1.优先建议,调整输入尺寸或者网络结构使得 size[2]和size[3]不为1。上面的size是Size([1, xxx, 1, 1])2.方法1如果不能用,则batch_size改成大于1。就可以,这就是为什么网上通用解释都是这个.因此,为了避免这个错误,我们把。

2023-12-08 17:27:50 818

原创方法-TensorBoard如何在PC端远程可视化服务器的训练结果

TensorBoard 是 TensorFlow 的可视化工具，可以帮助用户实时监控深度神经网络的训练过程,基于PyTorch的训练过程也可以可视化。假设我在服务器上进行模型的训练,并记录下summary,此时需要进行可视化相关的曲线或者plot图.如果服务器没有可视化外设,那么就只能在本机进行远程可视化了,具体方法如下.

2023-12-07 20:27:21 699

原创技巧-GPU显存和利用率如何提高和batch_size/num_works等参数的实验测试

在PyTorch中使用多个GPU进行模型训练时，各个参数和指标之间存在一定的关系。GPU显存是限制模型训练规模的关键因素。当使用多个GPU进行训练时，每个GPU都会分配一部分显存用于存储中间变量、梯度、权重等。GPU显存的使用量取决于模型的复杂度、批量大小（batch size）以及数据类型等因素。举例：假设我们使用两个GPU（GPU 0和GPU 1）进行训练，每个GPU的显存为12GB。若批量大小为32个样本，模型复杂度为中等，则每个GPU可能需要大约4GB的显存。

2023-11-30 20:02:29 10066 4

原创方法-进程已经杀死但是显存还未释放怎么办(ubuntu)

训练程序ctrl+c后,依然显示显存占用。##查看后台的训练进程。

2023-11-30 13:51:51 1332

原创技巧-PyCharm中Debug和Run对训练的影响和实验测试

在训练深度学习模型时，使用PyCharm的Debug模式和Run模式对训练模型的耗时会有一些区别。Debug模式：Debug模式在训练模型时，会对每一行代码进行监视，这使得CPU的利用率相对较高。由于需要逐步执行、断点调试、查看变量值等操作，Debug模式会使得训练过程更加耗时。然而，这种模式对于调试模型和查找错误非常有帮助。Run模式：Run模式在训练模型时，专注于执行训练过程，这使得GPU的利用率相对较高。由于不需要在运行时进行交互操作，Run模式的执行速度通常会比Debug模式快一些。

2023-11-29 10:00:09 1280 2

原创技巧-PyTorch中num_works的作用和实验测试

在 PyTorch 中，num_workers 是 DataLoader 中的一个参数，用于控制数据加载的并发线程数。它允许您在数据加载过程中使用多个线程，以提高数据加载的效率。具体来说，num_workers 参数指定了 DataLoader 在加载数据时将创建的子进程数量。当 num_workers 大于 0 时，DataLoader 会自动利用多个子进程来加速数据加载。这有助于减少主进程的等待时间，并使得数据加载更加并行化。

2023-11-28 20:12:04 1907