思考很久,写一下自己当前对DQN过程的理解
神经网络输入S状态
输出所有Q
贪心策略选择Q最大的action
环境给出R
此时更新神经网络
转移下个状态
循环
作者分享了对DQN过程的理解,包括神经网络输入S状态,输出所有Q值,用贪心策略选Q最大的action,环境给出R后更新神经网络,转移到下个状态并循环。
思考很久,写一下自己当前对DQN过程的理解
神经网络输入S状态
输出所有Q
贪心策略选择Q最大的action
环境给出R
此时更新神经网络
转移下个状态
循环
1271

被折叠的 条评论
为什么被折叠?