- 博客(2)
- 收藏
- 关注
原创 混合专家模型(Mixture of Experts, MoE)全梳理
第ttt个token的输出hth_ththtut∑i1Ngit⋅FFNiuthtuti1∑Ngit⋅FFNiut其中路由权重gitg_{i,t}git由路由分数sits_{i,t}sitgitsitifsit∈TopKsjtK0otherwiseg_{i,t} =gitsit0ifsit∈。
2025-03-11 11:22:57
1984
原创 扩散模型(Denoising Diffusion Probabilistic Models)
扩散模型(Denoising Diffusion Probabilistic Models)简介扩散模型的基本思想是通过迭代地正向过程来系统地、缓慢地破坏数据分布中的结构。然后再学习一个反向扩散过程,恢复数据中的结构,产生一个高度灵活和易于处理的数据生成模型。通过上述的描述,扩散模型可以简单的分为两个步骤,即正向的加噪过程和反向的扩散过程。下面我们分别对这两个过程进行讲述。正向过程(Forward Process/Trajectory)这个部分我们将详细介绍一下正向推理扩散过程,这个过程的目的是将
2024-11-28 21:10:19
926
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅