强化学习
文章平均质量分 93
ringking123
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Diffusion模型解析(二)
Diffusion 模型就是通过学习噪声去除的过程,从纯噪声一步步“反演”出清晰的图像,从而实现强大的生成能力。1) 作用:已知 xtx_txt 与(模型预测的)噪声 ϵ^\hat\epsilonϵ^,复原 x^0\hat x_0x^0。推导:由xt=αˉt x0+1−αˉt ϵ⟹x0=xt−1−αˉt ϵαˉt,x_t=\sqrt{\bar\alpha_t}\,x_0+\sq原创 2025-08-13 10:41:30 · 422 阅读 · 0 评论 -
Diffusion模型解析(一)
Diffusion 模型的核心想法是:正向过程(Forward Process / Diffusion):把一张真实图像逐步加噪声,直到变成接近纯高斯噪声。反向过程(Reverse Process / Denoising):学习一个神经网络,逐步去噪,从随机噪声还原成清晰的图像。这样就能实现 从噪声生成数据 的能力。原创 2025-08-08 14:33:44 · 810 阅读 · 0 评论 -
强化学习入门(五)
输入:初始化:──────────────────────────────────────────────────────────────FOR step=1…Niterstep=1\dots N_{\text{iter}}step=1…Niter DO采样小批量 (s,a,r,s′,d)←D.sample(B)(s,a,r,s',d)←\mathcal{D}.\text{sample}(B)(s,a,r,s′,d)←D.sample(B)更新 Critic(值函数) 2.1 目标动作 a原创 2025-07-22 14:55:51 · 959 阅读 · 1 评论 -
强化学习入门(三)
感知、行动和目标是强化学习(RL)的三大关键要素:在感知到环境状态信息后,RL 智能体能够采取行动来影响环境,以实现其目标。在 RL 中,智能体并不依赖专家数据来决定如何行动,而是通过奖励信号评估动作表现,不断迭代并改进其策略,以更好地达成目标。一般而言,RL 模型可被表述为满足马尔可夫性质的马尔可夫决策过程(MDP)[21]——未来状态仅取决于当前状态。具体来说,MDP 问题由五元组 <S,A,R,T,γ><\mathcal{S}, \mathcal{A},\mathcal{R},\mathcal{T},原创 2025-07-01 09:15:16 · 1254 阅读 · 0 评论 -
强化学习入门(二)
加噪过程,加入高斯白噪声。去噪过程,需要训练一个神经网络,和时间步t预测加入的噪声。按照αt和1−αt进行加权加噪,加噪之后得到的图片也是符合高斯分布的。t时刻的xt和t−1时刻的xt−1xtαtxt−11−αtεt−1所以从xt−1到xt的概率分布qxt∣xt−1qxt∣xt−1Nxt;αt。原创 2025-04-22 10:06:30 · 173 阅读 · 0 评论 -
强化学习入门(一)
在图片1中,使用重要性采样估计新策略πθ′πθ′下的期望,并计算优势函数。在图片2中,构建了 TRPO 的优化目标,通过最大化期望优势函数来更新策略,并通过 KL 散度约束确保新旧策略的差异不会太大,从而保证策略更新的稳定性。这就是从图片1的公式推导出图片2 TRPO公式的过程。原创 2025-04-22 09:40:47 · 950 阅读 · 0 评论
分享