- 博客(8)
- 收藏
- 关注
原创 关于提升Diffsuion的生成质量和提升AR的生成效率
最近刷到2篇论文,一篇是《RandAR: Decoder-only Autoregressive Visual Generation in Random Orders》,做的是让transformer能够乱序生成图像token以提高其并行生成的能力;
2025-11-07 20:09:39
891
原创 自回归模型学习-解读VAR
许多模型基于Encoder-Deocder架构。先用Decoder将输入嵌入到latent space,再用Decoder将特征重构。一个常见的Encoder-Decoder架构是自编码器(AE)。在图像生成时,可以将Decoder视为一个图像生成器,直接将随机生成的特征给到Decoder重构图像。AE并没有对编码的特征做约束,编码器输出的特征是连续的不规整的。这意味着Decoder只认识Encoder编码输出的向量,而不认识其他向量。此时随机一个特征向量给到Decoder,效果可能会非常差。
2025-10-02 15:07:31
937
原创 DiffusionModel
摘要:扩散模型(Diffusion Model)将图像生成建模为逐步去噪的过程,通过预测并减去噪声逐步还原图像。训练时使用人为添加的高斯噪声作为ground truth,网络学习噪声分布而非直接生成图像。数学推导表明,模型通过优化KL散度使去噪分布接近真实分布,采样时引入随机噪声提升生成效果。相比VAE的一步生成,扩散模型采用多步去噪机制,类似自回归模型的优势,使其在非自回归框架下取得优异表现。该模型的核心在于噪声预测器的训练和逐步去噪策略的结合。
2025-08-10 18:03:26
491
原创 mmCLIP论文分享
随着对改善人类生活的智能系统的不断追求,人类活动检测(HAR)在理解人类行为上发挥着关键的作用。HAR 任务可利用各种传感器,包括摄像头、可穿戴设备和无线信号。其中,毫米波(mmWave)因其低成本和高分辨率的特性而成为一种特别有利的传感解决方案。但是,当前基于毫米波的HAR方法主要是针对特定的、狭义定义的分类任务,这限制了模型识别超出训练活动范围外的行为的能力。这个限制主要来源于毫米波数据不足,收集大规模的毫米波数据非常昂贵,因此研究者通常为特定的任务收集小型的数据集。
2024-12-25 23:49:34
690
原创 Transformer的学习总结(1)
毕设的任务跟时序相关,而目前看到的很多与序列任务相关的论文都涉及到了 Transformer。刚好近日闲来无事,遂在这周学习并复现了 《Attention is all you need》。在这个过程中中遇到了许多曲折,同时也有一些尚未解决的问题。受限于能力和精力的限制,在短短一周内彻底弄清楚Transformer确实是一个比较困难的工作。但是学习的过程本来就是一个否定之否定,认知实践再认知的过程。
2024-12-19 20:08:21
1007
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅