
强化学习-数学理论
文章平均质量分 96
以西湖大学赵世钰课程为主的强化学习数学理论学习。
AI孙阁主
职业方向:自然语言处理、大模型微调
博客定位:编程语言、编程实战、模型框架、论文阅读、机器学习、深度学习、nlp基础、大模型微调等等......
个人简介:每个人都是一粒种子,是个种子就一定会发芽,就像李白所说“天生我材必有用”。事情的开始总是困难的,唯有坚持+耐心才能赢得胜利。另外一句诗送给自己也送给大家:“莫愁前路无知己,天下谁人不识君。”
展开
-
强化学习-随机近似与随机梯度下降
本篇博客主要包含如下内容:1️⃣ 新的角度再看mean eatimation;3️⃣ 随机梯度下降以及它的各种变体(GD、BGD、SGD、MBGD)。原创 2025-03-04 23:54:00 · 1254 阅读 · 7 评论 -
强化学习-蒙特卡洛方法
本篇博客开始介绍model-free的方法,model-free的核心思想是基于数据来估计出一个模型,核心包括:蒙特卡洛思想、MC Basic算法、MC Exploring Starts算法以及MC Epsilon-Greedly算法。原创 2025-01-16 23:45:57 · 2145 阅读 · 12 评论 -
强化学习-值迭代与策略迭代(动态规划)
本文针对强化学习第4课的内容进行了总结,包含3部分:value iteration;policy iteration;truncated policy iteration。原创 2024-12-23 22:09:36 · 1403 阅读 · 9 评论 -
强化学习-贝尔曼最优公式
贝尔曼最优公式数学理论与求解原创 2024-12-16 00:32:29 · 856 阅读 · 0 评论 -
强化学习-贝尔曼公式
本文主要包含以下部分:1)return的重要性;2)state value和action value的定义以及之间的关系;3)贝尔曼公式的推导。原创 2024-12-10 22:24:24 · 1260 阅读 · 1 评论 -
强化学习-基本概念
强化学习基本概念原创 2024-11-18 23:20:55 · 598 阅读 · 0 评论