论文阅读
文章平均质量分 95
zzfive
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Ovi-音视频生成模型
Ovi采用对称双主干网络设计,其音频分支与视频分支并行构建,且二者均基于完全相同的DiT架构。其中,视频分支由Wan2.2 5B模型初始化,而结构完全一致的音频分支则采用从头训练。因此,两个主干网络拥有相同数量的Transformer块、注意力头、注意力头维度以及前馈网络,实现了每一层级的对称性,具体细节如表 1 所示。表1 Ovi双主干网络的Transformer超参数每个Transformer块都包含成对的交叉注意力层:音频流会对视频流进行注意力计算,而视频流也会反过来对音频流进行注意力计算。原创 2025-10-16 23:04:58 · 1110 阅读 · 0 评论 -
Qwen3-Omni
如图1所示,Qwen3-Omni采用 “思考者 - 对话者”(Thinker-Talker)架构。Thinker与Talker均采用MoE架构,以支持高并发处理与快速推理;Talker不再接收Thinker的高层级文本表征,仅以音频和视觉多模态特征作为条件(进行语音生成)。该设计的核心考量如下:(1)对于文本内容而言,离散token与嵌入向量在信息层面具有等效性;(2)多模态条件控制对于 “音视频协同语音生成” 至关重要,例如在语音翻译任务中需保持语音的韵律与音色。原创 2025-10-03 16:03:15 · 922 阅读 · 0 评论 -
FramePack
本文提出了一种神经网络结构FramePack,旨在解决视频生成领域中下一帧预测模型面临的“遗忘 - 漂移”困境。FramePack会根据输入帧的重要性对其进行渐进式压缩,确保无论视频时长如何,总上下文长度都能收敛到一个固定的上限。这一目标通过为不同压缩率调整Transformer的分块核大小来实现。结合抗漂移采样方法,该方法通过提前确定的端点或反转的时间顺序融入双向上下文,能够在保持计算瓶颈不变的前提下,生成更长的视频。原创 2025-09-19 21:53:58 · 816 阅读 · 0 评论 -
Wan系列模型解析--VACE
DiT在生成高质量图像和视频方面已展现出强大的能力与可扩展性,进一步追求生成与编辑任务的统一需求也越来越明显,但由于视频合成对时空动态一致性存在内在需求,实现视频合成的统一方法仍面临挑战。本文提出 VACE,即一体化视频创作与编辑框架,该框架支持用户在单一平台内完成多种视频任务,包括图片生视频、视频编辑以及掩码引导的视频编辑。原创 2025-09-07 23:11:51 · 1167 阅读 · 0 评论 -
RLVR的一种扩展方案--RLPR论文阅读
可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)在提升大语言模型(LLMs)的推理能力方面展现出了良好潜力,但其依赖基于规则、准确答案或代码运行等可验证的硬奖励,使其很大程度上局限于数据和代码领域。为了解决此问题,本论文作者发现LLMs生成正确自由形式答案的内在概率能直接反应其对推理奖励的自我评估,即推理过程对得出争取答案的贡献程度;原创 2025-07-23 23:38:46 · 1175 阅读 · 0 评论 -
早期SD模型控制生成方法
Stable Diffusion系列模型出现,极大推动了扩散模型、AI图片生成技术发展,但由于生成结果可控性差使得其主要流行于各种社区,难以直接应用于生产,不能实际落地。随着技术发展,模型基础能力越来越强,生成可控性也越来越好,但即使如今的Flux、SD3、MJ、GPT-4o等各系列模型中也没有完全解决此问题。在SD模型初期出现过各种提高控制性生成的方法,本文档对其中使用较广泛的三个进行简短说明。原创 2025-07-20 17:05:54 · 1215 阅读 · 0 评论 -
CFG的前世今生
DDPM将扩散模型在图片生成任务中做work后,大量研究人员开始对其进行迭代。虽然DDPM论文证明了扩散模型在图片生成任务中的潜力,但是其整体性能,特别是“有条件生成”,相较于当时的GAN系列模型还是存在差距,直到Openai的这篇论文出现,扩散模型在有条件图片生成任务上超过了GANs,而这篇论文对上篇论文中的核心思想进行优化,提高模型的性能和计算效率,该方法就是目前在扩散模型生成领域广泛使用的CFG。原创 2025-06-19 22:53:21 · 660 阅读 · 0 评论 -
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
本文提出的视觉自回归建模/VAR这种新范式,其将图像的自回归学习重新定义为从粗到细的“下一个尺度预测”或“下一个分辨率预测”,与常规的LLM预测下一个token的范式不同。VAR首次基于GPT架构的AR模型在图片生成方面超过了扩散模型,在 ImageNet 256×256 基准测试中,FID、IS分数均大幅提高,推理速度也快了将近20倍。实验证实,VAR在图像质量、推理速度、数据效率和可扩展性等多个维度由于DiT,且其具有明显的Scaling规律,在图像修复、外绘、编辑等下游任务中具有较好的泛化能力。原创 2025-06-14 17:22:54 · 1051 阅读 · 0 评论 -
SiT技术报告阅读
在该框架内,探索了许多关键设计选择之间的权衡:连续或离散时间模型的选择、插值的选择、模型预测的选择以及采样器的选择。DiT团队最近刚好发布了基于DiT架构研究扩散模型插值技术的论文,简称为SiT,论文行文较难理解,感兴趣的读者推荐阅读官方的技术报告,见顶部链接,本文也主要基于技术报告进行初略的解释,因为内容涉及较多公式变换,如有错误,请告知。对应于由不同时间相关函数加权的普通去噪目标的扩散模型的不同模型预测,训练了所有三个模型并给出了下面的结果。相同时,扩散和基于流的方法共享相同的时间演化过程已被证明;原创 2024-03-12 00:37:42 · 2796 阅读 · 0 评论 -
stable diffuison论文阅读
stable diffuison论文阅读原创 2022-12-23 13:14:11 · 1025 阅读 · 1 评论 -
Improved Techniques for Training Score-Based Generative Models论文阅读
Improved Techniques for Training Score-Based Generative Models论文阅读原创 2022-12-18 10:35:07 · 1482 阅读 · 0 评论 -
SDE论文阅读
SDE论文阅读原创 2022-12-10 17:13:58 · 1236 阅读 · 0 评论 -
Generative Modeling by Estimating Gradients of the Data Distribution论文阅读
Generative Modeling by Estimating Gradients of the Data Distribution论文阅读原创 2022-12-04 14:31:38 · 563 阅读 · 0 评论 -
YourTTS论文阅读
YourTTS论文阅读原创 2022-10-30 16:33:35 · 2596 阅读 · 2 评论 -
SC-GlowTTS论文阅读
SC-GlowTTS论文阅读原创 2022-10-29 17:32:32 · 1222 阅读 · 0 评论 -
IDDPM论文阅读
IDDPM论文阅读原创 2022-10-07 15:02:16 · 6764 阅读 · 3 评论 -
Normalized Glow论文阅读
Normalized Glow论文阅读笔记原创 2022-10-04 15:10:02 · 1648 阅读 · 2 评论 -
VITS论文阅读
VITS论文阅读笔记原创 2022-10-02 16:10:27 · 4215 阅读 · 4 评论 -
R-GCN论文阅读
R-GCN论文阅读笔记原创 2022-09-04 22:09:04 · 1080 阅读 · 1 评论 -
KG-BERT论文阅读
KG-BERT论文阅读笔记原创 2022-09-04 18:08:02 · 1627 阅读 · 1 评论 -
Glow-TTS论文阅读
Glow-TTS论文阅读笔记原创 2022-08-27 22:59:16 · 3283 阅读 · 3 评论 -
FastSppech2论文阅读
FastSppech2论文阅读笔记原创 2022-08-21 18:11:12 · 2692 阅读 · 2 评论 -
ConSERT和SimCSE方法对比
ConSERT和SimCSE方法对比原创 2022-08-20 11:27:07 · 1860 阅读 · 2 评论
分享