- 博客(11)
- 收藏
- 关注
原创 codebook机制
2.问题:不好采样,VQ-VAE将编码器的输出变成离散向量,是将输入图像映射到离散的潜空间(latent space),但没有明确的机制控制这些离散的潜空间向量如何组合和生成,因此不支持随机图像生成。约束编码器向量z,使z满足标准正态分布,这样解码器不仅认识编码器编出的向量,还认识其他来自正态分布的向量,待训练完成后,使用来自标准正态分布的随机向量和解码器实现随机图像生成。为编码器的每个输入向量在嵌入空间中找到最近邻,求编码器输出向量与嵌入空间每个向量的距离,求出最近的下标(即VQ-VAE的离散编码)。
2025-09-12 17:46:09
877
原创 模型优化系列——模型量化
本文系统介绍了神经网络量化方法,首先区分了定点与浮点表示的差异,重点阐述了对称量化(将FP32值线性映射到INT8范围)和非对称量化(通过min/max确定缩放系数)两种核心方法。量化算术部分说明了INT8运算需INT32保存结果的实现机制。文章详细对比了三种主流量化技术:训练后动态量化(实时调整参数)、静态量化(固定校准参数)以及量化感知训练(模拟量化噪声),并提供了PyTorch实现代码示例。研究表明,量化技术能有效降低模型存储和计算开销,其中量化感知训练可保持较高精度,适用于移动端高精度需求场景。
2025-06-27 11:23:41
1105
原创 模型优化系列——模型剪枝——剪枝算法框架OTOv2
OTOV2提出了一种自动化的DNN训练与压缩框架,通过创新性的图算法自动划分零不变组(ZIG)并采用双半空间投影梯度(DHSPG)优化器实现结构化稀疏。该框架能够一次性完成模型训练与压缩,无需微调即可生成高性能紧凑模型。关键技术包括:1)自动ZIG分区算法(线性时间复杂度)识别最小可剪枝参数组;2)DHSPG优化器通过双半空间投影实现可靠稀疏控制。相比前代,OTOv2具有更好的泛化能力和更少的超参数调整需求,可自动移除冗余结构(如卷积滤波器行及相关参数),显著提升压缩效率。代码已开源,支持通用DNN模型。
2025-06-24 23:10:48
1133
原创 骨干网络系列-PVT
摘要: 本文提出Pyramid Vision Transformer (PVT),一种专为密集预测任务设计的纯Transformer主干网络。PVT通过三个关键创新克服了ViT在密集预测中的局限性:(1)采用细粒度像素块(4×4)作为输入以实现高分辨率表示;(2)设计渐进式收缩金字塔结构,随网络加深减少序列长度;(3)引入空间缩减注意力层(SRA)降低计算开销。相比CNN,PVT始终保持全局感受野;相比ViT,其金字塔结构更适配密集预测流程。实验表明PVT可构建无卷积的目标检测流程,支持多种像素级任务。该工
2025-06-12 21:11:10
940
原创 Mamba系列笔记-Spatial-Mamba论文笔记
实践中通过采用多尺度膨胀卷积线性加权相邻状态变量:使用膨胀因子为d=1,3,5 的深度滤波器构造邻集 Ωd={(i,j)|i,j∈{−d,0,d}},公式如下,其中 kijd 表示位置 (i,j) 的膨胀因子 d 的滤波器权重, xt+iw+j 表示位于该位置 (i,j) 的状态 xt 的邻居, w 表示图像的宽度。一种改进的自注意力机制,使用核函数将自注意力机制的计算复杂度降低为线性。对于线性注意力和Mamba,M采用下三角矩阵的形式, 对于Spatical-Mamba, M采用邻接矩阵的形式。
2025-05-09 21:35:40
1319
1
原创 Mamba系列笔记-Mamba
结构化状态空间模型(Structured State Space Sequence Models)是一种用于建模序列数据的数学框架,它通过定义系统的内部状态和状态之间的转换关系来描述序列的动态行为。推理时参数本身还是不变,但由于参数是数据依赖的,模型在推理时可以根据输入数据的特点进行有区别的对待,即对不同的输入token应用不同的B、C和Δ值。1.输入离散化:看作连续信号的采样,利用零阶保持技术处理(保持值直到收到新的离散信号,采样值为离散输出,做了零阶保持的变量上加横杠),得到序列到序列。
2025-05-08 21:56:25
1339
原创 conda中的环境操作
在 Conda 中更新现有环境的 Python 版本比较复杂,因为 Conda 不支持直接更新 Python 版本。然而,你可以通过创建一个新环境并复制原环境中的软件包来实现类似的效果。
2024-04-15 16:57:46
401
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅