
强化学习RL
文章平均质量分 90
m0_61616957
熟练掌握各类机动车、叉车、电动车等车辆驾驶技术
展开
-
深度确定性策略梯度(DDPG)
DDPG原创 2022-10-18 10:17:51 · 1402 阅读 · 1 评论 -
A3C算法
A3C算法原创 2022-09-20 22:13:09 · 955 阅读 · 0 评论 -
Actor-Critic算法
Actor-Critic从名字上看包括两部分,演员 (Actor) 和评价者 (Critic) 。其中 Actor 使用我们上一节讲到的策略函数,负责生成动作 (Action) 并和环境交互。而Critic使用我们之前讲到了的价值函数,负责评估Actor的表现,并指导Actor下一阶段的动作。原创 2022-09-20 20:00:43 · 15992 阅读 · 0 评论 -
策略梯度(Policy Gradient)
策略梯度原创 2022-09-20 16:18:15 · 2361 阅读 · 0 评论 -
强化学习基础2
强化学习原创 2022-08-31 21:22:43 · 459 阅读 · 0 评论 -
强化学习基础1
马尔科夫决策原创 2022-08-13 15:35:57 · 537 阅读 · 2 评论