open AI: 马斯克
AGI:通用人工智能
The best way to predict the future is to invent it.
Gym :强化学习的基本对象:
环境:ENV,问题,状态空间,行动空间,奖励,状态转移模型。
智能体:AI 算法
步骤:
初始化环境:
循环:
按照策略行动
环境变化,获取反馈
学习(更新策略)
https://gym.openai.com/docs/#getting-started-with-gym
GYM 学习伪代码:
强化学习伪代码:
游戏的结束:是以失败为指示。
Env.reset()
while not don
action = Agent.policy(Env.state)
reward, newState,done= Env.step(action)
Agent.learn(state,action,reward)
env.render() # 画图
Save(s,ar,news) to memory
if train:
Batch =Memory.sample()//随机取
QNet.
state = newState
Q学习:
原始问题:在状态S,采取哪个行动?
采取期望最高的行动
从一张表Q(s,a)中获取
怎么计算Q表?
随机初始化,然后不停尝试,根据会报更新Q表。
所以状态的更新和学习是同步进行的。