强化学习-数学理论_AI孙阁主的博客-优快云博客

强化学习-数学理论

关注

文章平均质量分 96

以西湖大学赵世钰课程为主的强化学习数学理论学习。

关注数：文章数：6 文章阅读量：8948 文章收藏量：139

作者: AI孙阁主

职业方向：自然语言处理、大模型微调博客定位：编程语言、编程实战、模型框架、论文阅读、机器学习、深度学习、nlp基础、大模型微调等等...... 个人简介：每个人都是一粒种子，是个种子就一定会发芽，就像李白所说“天生我材必有用”。事情的开始总是困难的，唯有坚持+耐心才能赢得胜利。另外一句诗送给自己也送给大家：“莫愁前路无知己，天下谁人不识君。”

展开

专栏收录文章

强化学习-随机近似与随机梯度下降

本篇博客主要包含如下内容：1️⃣ 新的角度再看mean eatimation；3️⃣ 随机梯度下降以及它的各种变体（GD、BGD、SGD、MBGD）。

原创 2025-03-04 23:54:00 · 1459 阅读 · 7 评论
强化学习-蒙特卡洛方法

本篇博客开始介绍model-free的方法，model-free的核心思想是基于数据来估计出一个模型，核心包括：蒙特卡洛思想、MC Basic算法、MC Exploring Starts算法以及MC Epsilon-Greedly算法。

原创 2025-01-16 23:45:57 · 2465 阅读 · 12 评论
强化学习-值迭代与策略迭代(动态规划)

本文针对强化学习第4课的内容进行了总结，包含3部分：value iteration；policy iteration；truncated policy iteration。

原创 2024-12-23 22:09:36 · 1696 阅读 · 9 评论
强化学习-贝尔曼最优公式

贝尔曼最优公式数学理论与求解

原创 2024-12-16 00:32:29 · 1158 阅读 · 0 评论
强化学习-贝尔曼公式

本文主要包含以下部分：1）return的重要性；2）state value和action value的定义以及之间的关系；3）贝尔曼公式的推导。

原创 2024-12-10 22:24:24 · 1453 阅读 · 1 评论
强化学习-基本概念

强化学习基本概念

原创 2024-11-18 23:20:55 · 721 阅读 · 0 评论

强化学习-数学理论

作者: AI孙阁主

强化学习-随机近似与随机梯度下降

强化学习-蒙特卡洛方法

强化学习-值迭代与策略迭代(动态规划)

强化学习-贝尔曼最优公式

强化学习-贝尔曼公式

强化学习-基本概念