深度学习
文章平均质量分 77
L.fountain
沾染太多社会气息的书生
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
图像自回归生成(Auto-regressive image generation)实战学习(四)
本文介绍了基于二进制球面量化(BSQ)的Patch自编码器实现。通过将连续图像特征量化为离散整数Token,同时保留重构能力,为自回归模型训练奠定基础。核心组件包括:可微分符号函数(diff_sign)实现梯度反向传播;BSQ量化模块完成特征降维、L2归一化和二进制编码;以及结合Patch自编码器和BSQ的完整模型。该方案通过10比特编码实现1024种离散表示,支持端到端训练,在保持图像质量的同时实现有效特征离散化。原创 2026-01-04 22:40:35 · 234 阅读 · 0 评论 -
图像自回归生成(Auto-regressive image generation)实战学习(三)
本文实现了一个基于Patch的自动编码器模型,通过分块处理图像实现编码-解码流程。核心组件包括:1)PatchifyLinear将图像分块并线性映射为嵌入向量;2)UnpatchifyLinear实现逆向转换;3)PatchEncoder和PatchDecoder分别负责编码和解码,采用卷积层和非线性激活函数。模型支持HWC和CHW格式转换,可加载预训练权重,适用于图像重建任务。原创 2025-12-23 22:05:17 · 256 阅读 · 0 评论 -
图像自回归生成(Auto-regressive image generation)实战学习(二)
本文介绍了一个图像生成训练框架,包含块级模型(AE/BSQ)和自回归模型(AR)的训练流程。框架采用PyTorch Lightning实现,支持两种模型类型:块级模型使用MSE损失和[-0.5,0.5]归一化输入,自回归模型使用交叉熵损失处理令牌序列。优化器均采用AdamW(学习率1e-3),并实现了带时间戳的模型保存机制。训练过程包含数据加载、损失计算和可视化功能,支持图像重构和序列预测任务。原创 2025-12-17 23:43:40 · 370 阅读 · 0 评论 -
图像自回归生成(Auto-regressive image generation)实战学习(一)
本项目基于SuperTuxKart图像数据集,开发了一个自回归图像生成系统。系统包含三个核心模块:块级自编码器(30分)实现图像分块编码;块级量化器(30分)采用二进制球面量化技术;自回归模型(30分)用于预测图像序列。项目还实现了图像生成功能(10分),并支持额外加分项(5分)的图像压缩功能。系统通过训练脚本自动完成模型训练,生成日志和权重文件,可将图像压缩至500字节级别,同时提供样本生成功能。项目代码和数据集已开源,便于复现和改进。原创 2025-12-17 20:46:16 · 1059 阅读 · 0 评论 -
CLIP替换MHA为SHA并导出onnx模型
最近客户有个小需求是用OpenAI官方的CLIP模型,把CLIP模型的多头注意力改成单头,并导出ONNX模型,不需要重新训练。首先,找到clip模型中的Transformer模块,对其中ResidualAttentionBlock的多头注意力进行改进。在CLIP中的readme中有如下demo,本文基于该demo做改动。成功导出onnx模型,通过如下代码进行验证。可以观察到结果改变了,随后按照这个。原创 2025-09-09 22:09:01 · 201 阅读 · 0 评论
分享