- 博客(8)
- 收藏
- 关注
原创 Transformer基础知识
当前主流的大语言模型普遍采用Transformer架构,这是一种由多层多头自注意力(Multi-head Self-attention)模块堆叠而成的神经网络。原始Transformer模型包含编码器和解码器两部分,这两个组件既可以协同工作也能独立使用。值得注意的是,Transformer在计算机视觉领域也获得了广泛应用,被成功应用于目标检测、图像分割等多种任务。为深入理解其核心原理,特此整理相关资料以供学习。以下是模型的基本结构图和Attention机制的核心公式,将逐一进行介绍。
2025-12-26 14:56:03
752
原创 FEAR Track 单目标跟踪
部署时由于需要对搜索、静态、动态模板帧进行共同的特征提取,那么就需要共享主干网络,可以在转onnx的时候并行三个输入,并得到对应的三个特征图,将其作为输出,然后三个特征图分支在连接下面的操作得到最后的reg和cls输出。搜索帧:跟踪目标的真实框进行一定比例的外扩获取,记好:搜索区域是用来确定搜索帧里面目标的位置,而搜索帧的选择和模板帧具有一定的帧间隔。:上面已经计算得到了余弦相似度,那么在推理过程中,每处理N帧时,选择与双模板表示余弦相似度最高的搜索图像并世通该帧预测的目标边界框更新动态模板。
2025-04-26 11:30:00
1324
原创 YOLO12模型蒸馏,有效涨点
上面提到了温度T的作用是软化便签,其简单说明就是使得输出的概率分布更加平缓,比如原始的输出(0.84, 0.11, 0.05),那么软化后的输出(0.55, 0.30, 0.15)模型蒸馏是一种通过迁移知识从大模型(教师模型)到小模型(学生模型)的技术,旨在提升小模型的性能,其主要目的就是减少计算量和内存赵勇,便于部署。:直接对齐教师模型(Teacher)和学生模型(Student)的输出层预测结果,通过模仿教师的输出概率分布传递知识。高温(T > 1 )时,次要类别概率被放大,传递更多类别的关系信息。
2025-04-22 13:35:45
1856
34
原创 YOLO12阅读总结
引言:实际项目使用中,尤其是小目标检测任务中,使用较多的还是yolov5,可能是因为基于anchor base 的原因导致检测效果较好,比如在VisDrone数据集上,在精度,和速度方面进行了衡量,现在使用的是改进后的yolov5,主要是替换轻量化的主干网络,增加新的注意力机制(PSA)等,使用蒸馏技术,使用varifocal loss等等。FlashAttention 技术,通过优化内存访问模式,显著提高了注意力机制的计算效率,通过减少内存访问开销,提高了模型的推理速度,适合实时目标检测任务。
2025-04-18 14:36:17
1177
原创 Stable Diffusion 学习记录(二)
上图就是KL的基础定义,其作用就是用于衡量两个概率分布之间的差异,那么在SD模型中衡量就是U-NET预测的噪声和真实添加噪声分布的差异。基于选定的时间步长t,根据预定义的噪声调度(如线性或余弦调度),将相应的高斯噪声添加到原始图像中。昨天写了Stable Diffusion模型前向、反向扩散过程以及关于U-Net、VAE相关的知识,剩下的就是一些损失函数的推导以及相关的数学知识了。总结:SD模型整个训练过程在高维度上可以看成是如何添加噪声并去除噪声的过程,并在针对噪声的过程中学习到了图片生成的能力。
2025-03-05 11:03:56
950
原创 Stable Diffusion 学习记录(一)
U-Net结构和 Schedule算法共同组成了图像优化模块,其中,U-Net网络负责预测噪声,不断的优化生成的过程,同时,在预测噪声的时候不断的添加文本的语义信息。由于项目中需要对无人机视角下的人体或者车辆进行检测(红外场景),相对而言,这方面的数据集比较少,因此想根据现有的可见光的数据集进行转换,这就用到了Stable Diffusion相关的知识,好记性不如烂笔头,看了好多文章,在此按照自己的思路记录一下,加深印象。不过具体是怎么工作的?不同的噪声调度策略会影响扩散模型的学习效率和生成质量。
2025-03-04 16:31:27
1122
原创 人脸姿态估计(代码已跑通)
人脸姿态估计主要是获得脸部朝向的角度信息。一般可以用旋转矩阵、旋转向量、四元数或欧拉角表示(这四个量也可以互相转换)。一般而言,欧拉角可读性更好一些,使用更为广泛。本文获得的人脸姿态信息用三个欧拉角(pitch,yaw,roll)表示,通俗讲就是抬头、摇头和转头。话不多说,先上图:代码部分解答:本例中只是用了14个关键点,主要是因为通用的3D人脸模型的标注方式和dlib检测出来的点不对应,因此选择了部分共同的特征,points_68 代表的部分检测出...
2021-12-02 19:00:04
3857
17
原创 CornerNet
论文:CornerNet: Detecting Objects as Paired Keypoints论文链接:https://arxiv.org/abs/1808.01244代码链接:https://github.com/umich-vl/CornerNet简介这篇发表在ECCV2018上的一篇目标检测论文。主要创新点:1、使用一对关键点来代替anchor检测目标,即通过检测目标的左...
2021-11-11 10:19:15
154
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅