- 博客(11)
- 收藏
- 关注
原创 easyrl关键词
使用本节中小 船的例子,当得到一个马尔可夫奖励过程后,我们可以从某一个状态开始,把小船放到水中,让它随波流 动,这样就会产生一个轨迹,从而得到一个折扣后的奖励 g。动作空间(action space)、离散动作空间(discrete action space)和连续动作空间(continuous action space):在给定的环境中,有效动作的集合被称为动作空间,智能体的动作数量有限的动作空间称为离散 动作空间,反之,则被称为连续动作空间。奖励函数是一 个期望,即在某一个状态可以获得多大的奖励。
2024-06-19 09:40:30
319
原创 easyrl笔记
智能体如何在环境里最大化自己的奖赏。强化学习很难的原因在于智能体不能立刻得到反馈,而我们仍然希望智能体在这个环境里学习。(延迟奖励)强化学习输入的是时间序列数据,奖励延迟,不断试错。强化学习可以有超人类的表现。智能体的目的从观测种学到最大化奖励的策略。强化学习的目的就是最大化智能体可以得到的期望的累计奖赏。重要课题:近期以及远期奖赏的权衡,如何获得更多的远期奖赏。当智能体可以观察到环境的所有状态时,环境是完全可观测的,通常情况下被建模成一个马尔可夫决策过程(MDP)的问题。
2024-06-19 09:38:37
942
原创 RuntimeError: PytorchStreamReader failed locating file data.pkl: file not found
代码一直都能运行,没有改任何一个数字,出现这个问题之后,在Ubuntu系统的文档下新建一个文件夹,将运行报错的文件复制一份粘贴到documention文档,在pycharm中左上角file open 在文档中打开这个报错的文件,binggo~ 成功运行不报错,在此多谢我的好师姐!
2024-02-27 19:43:22
1120
原创 运行MPE代码时petting_zoo导入simple_adversary_v3报错解决方式
运行MPE代码时出现这个问题,no module named 'pettingzoo', 在环境下pip pettingzoo之后,simple_adversary_v3报红。很有可能是python版本的问题,解决方法1.更新python版本,2.创建一个特定python版本的环境,以下为创建特定python版本环境的方法。
2024-01-13 20:19:38
1894
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人