强化学习初窥----- open AI

open AI: 马斯克
AGI:通用人工智能
The best way to predict the future is to invent it.

Gym :强化学习的基本对象:

环境:ENV,问题,状态空间,行动空间,奖励,状态转移模型。
智能体:AI 算法

步骤:

初始化环境:
循环:
    按照策略行动
    环境变化,获取反馈
    学习(更新策略)

https://gym.openai.com/docs/#getting-started-with-gym

GYM 学习伪代码:

    强化学习伪代码:
    游戏的结束:是以失败为指示。
        Env.reset()
        while not don
            action = Agent.policy(Env.state)
            reward, newState,done= Env.step(action)
            Agent.learn(state,action,reward)
            env.render() # 画图
            Save(s,ar,news) to memory
            if train:
                Batch =Memory.sample()//随机取
                QNet.
            state = newState

Q学习:
原始问题:在状态S,采取哪个行动?
采取期望最高的行动
从一张表Q(s,a)中获取
怎么计算Q表?
随机初始化,然后不停尝试,根据会报更新Q表。
所以状态的更新和学习是同步进行的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值