
深度学习
文章平均质量分 57
electrochemjy
华南理工大学化工博士生在读
展开
-
【深度学习】走迷宫任务学习二(让智能体学习直接朝目标前进)
走迷宫任务学习二-让智能体学习直接朝目标前进迷宫初始状态智能体的实现使用softmax函数计算比率收集智能体移动的状态及动作根据策略梯度法更新策略 实现任务:使用策略迭代法让智能体学习如何直接朝向目标前进 与任务一的区别: 根据softmax函数计算比率 记录智能体移动的历史状态及动作(任务一仅记录状态) 根据策略梯度法更新策略 设置策略变化停止条件,即智能体能实现一路直线行走至目标 # 导入所使用的包 import numpy as np import matplotlib.pyplot as plt原创 2022-02-21 10:11:31 · 495 阅读 · 0 评论 -
【深度学习】-走迷宫任务学习一(实现智能体随机移动)
深度强化学习之走迷宫学习一建立迷宫智能体的实现 本文档用于深度强化学习的学习记录,首先通过迷宫任务来学习强化学习过程的基本思想 【迷宫任务进阶】 阶段一:实现一个智能体,该智能体在迷宫中随机搜索并朝目标前进 阶段二:使智能体直接朝目标前进(策略迭代法) 阶段三:价值迭代(对智能体的状态及动作赋予价值),求取价值最大的动作与状态(得到正确的值) PS:在此先记录阶段一的学习 建立迷宫 # 引入库函数 import numpy as np import matplotlib.pyplot as plt from原创 2022-02-12 12:31:38 · 1615 阅读 · 0 评论