Paper_record
文章平均质量分 92
记录我得paper阅读,方向计算机机器学习,从硬件汇编到全栈希望都能涉及
若尘797
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【Machine Learning】2.Markov Decision Processes
马尔可夫决策过程(MDP)是一种用于序列决策问题的数学框架,由状态空间、动作空间、状态转移概率、奖励函数和折扣因子组成。MDP中的价值函数包括状态价值函数和状态-动作价值函数,分别表示在特定状态或状态-动作对下按策略执行所获得的期望累计奖励。贝尔曼方程是MDP的核心,用于递归地计算价值函数。最优值函数和最优策略通过最大化期望奖励来确定。价值迭代是一种动态规划方法,通过迭代更新状态价值函数直至收敛,最终得到最优策略。与策略迭代不同,价值迭代在每次迭代中同时更新价值和策略。原创 2025-05-17 21:30:06 · 1652 阅读 · 0 评论 -
【NeurIPS_Enhancing Chess Reinforcement Learning with GraphRepresentation】
GAT层和GATEAU层的区别原创 2025-04-01 13:34:13 · 1399 阅读 · 0 评论
分享