强化学习-Q-learning FrozenLake-V0 实现

最新推荐文章于 2024-11-21 10:56:01 发布

蓑雨春归

最新推荐文章于 2024-11-21 10:56:01 发布

阅读量4.6k

点赞数 6

分类专栏：算法强化学习文章标签：深度学习神经网络机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/zjjtilm/article/details/106972552

版权

Q-learning算法是比较经典的强化学习入门算法，本文以FrozenLake-V0为例，介绍Q-learning的相关实现。

首先定义一个Agent类，sample函数就是使用epsilon-greedy的采样方法，predict则是根据当前的观察值来预测输出的动作，learn就是通过输入当前的观察值obs,当前的动作action，奖励reward以及下一个时刻的观察值next_obs来更新Q值表。

代码：

class QLearningAgent(object):
    def __init__(self, obs_n, act_n, learning_rate=0.01, gamma=0.9, e_greed=0.1):
        self.act_n = act_n  # 动作维度，有几个动作可选
        self.lr = learning_rate  # 学习率
        self.gamma = gamma  # reward的衰减率
        self.epsilon = e_greed  # 按一定概率随机选动作
        self.Q = np.zeros((obs_n, act_n))

    # 根据输入观察值，采样输出的动作值，带探索
    def sample(self, obs):
        rd_p = np.random.uniform(0, 1)
        if rd_p <= self.epsilon:
            action = np.random.choice(self.act_n)
        else:
            action = self.predict(obs)
        return action

    # 根据输入观察值，预测输出的动作值
    def predict(self, obs):

最低0.47元/天解锁文章

博客等级

码龄9年

12
原创

30
点赞

95
收藏

10
粉丝

关注

私信

热门文章

分类专栏

最新评论

使用ONNX将Pytorch转为Tensorflow的使用尝试
leeann_gg939: 感谢整理与分享！请问能给一下完整代码吗？
设计模型之Visitor模式-图书馆管理系统应用C++实现
chunyou128: LibrarySumPrintVisitor() { cout << "初始化对象" << endl; total_sum = 0; }//构造方法 total_sum需要初始化。
强化学习-Q-learning FrozenLake-V0 实现
蓑雨春归: 谢谢指正，当时想放DQN，结果放了Q-learning的代码。
强化学习-Q-learning FrozenLake-V0 实现
伊利诺伊徐美男: 并不是DQN的实现，是普通的Q学习算法
设计模型之Visitor模式-图书馆管理系统应用C++实现
蓑雨春归: 抱歉，前段时间比较忙，没来得及回复。我又看了下访问者模式，当时理解访问者模式确实理解错了，你的理解是对的，"vistor 对象在不改变Book对象以及另外两个论文类的情况下，对book和论文类定义新的操作"，如果不使用访问者模式，要对book和article的方法去做一些改动，需要分别到两个类中去做改动；使用了访问者模式，根据传进来的book和article对象指针来针对性修改。访问者模式才符合面对对象的开放-封闭原则。而我之前的写法属于是主次颠倒了，没有理解访问者模式的实际内涵。感谢指正。

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。