
强化学习
文章平均质量分 86
虾饺爱下棋
正如《倔强》中所歌唱的“逆风的方向,更适合飞翔”一样,坚定前进,保持自我。与君共勉。
我的github网址:https://github.com/lizhongzheng13?tab=repositories 希望大家多多支持!
展开
-
强化学习_演员-裁判方法
演员-裁判方法,这种方法在处理复杂环境和高维状态空间时特别有效,因为它利用了策略的直接建模和价值函数的指导。原创 2025-03-19 14:54:38 · 481 阅读 · 0 评论 -
基于策略的强化学习
基于策略的学习:如果已知一个好的策略函数π,智能体可以根据该策略随机采样动作a∼π(s)策略网络:通过策略梯度算法学习策略网络,以最大化期望回报。策略梯度算法:学习参数θ,以最大化 E[VS;θ)]。原创 2025-03-19 14:44:01 · 814 阅读 · 0 评论 -
强化学习基础_基于价值的强化学习
基于价值的强化学习原创 2025-03-19 12:00:00 · 909 阅读 · 0 评论 -
强化学习基础知识_01
强化学习基础知识点的解析。原创 2025-03-18 19:31:13 · 893 阅读 · 0 评论