自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 提升下载速度+国内镜像源

【代码】提升下载速度+国内镜像源。

2024-09-11 10:31:27 191

原创 ubuntu软件卡住关不掉(已解决)

输入pkill 点击要关掉的app。

2024-08-05 17:09:14 373

原创 博弈强化学习

斯坦福大学 - 算法博弈论与计算机制设计:MIT - 算法博弈论:普林斯顿大学 - 算法博弈论:Coursera上的在线课程:

2024-06-19 10:32:48 254

原创 easyrl关键词

使用本节中小 船的例子,当得到一个马尔可夫奖励过程后,我们可以从某一个状态开始,把小船放到水中,让它随波流 动,这样就会产生一个轨迹,从而得到一个折扣后的奖励 g。动作空间(action space)、离散动作空间(discrete action space)和连续动作空间(continuous action space):在给定的环境中,有效动作的集合被称为动作空间,智能体的动作数量有限的动作空间称为离散 动作空间,反之,则被称为连续动作空间。奖励函数是一 个期望,即在某一个状态可以获得多大的奖励。

2024-06-19 09:40:30 319

原创 easyrl笔记

智能体如何在环境里最大化自己的奖赏。强化学习很难的原因在于智能体不能立刻得到反馈,而我们仍然希望智能体在这个环境里学习。(延迟奖励)强化学习输入的是时间序列数据,奖励延迟,不断试错。强化学习可以有超人类的表现。智能体的目的从观测种学到最大化奖励的策略。强化学习的目的就是最大化智能体可以得到的期望的累计奖赏。重要课题:近期以及远期奖赏的权衡,如何获得更多的远期奖赏。当智能体可以观察到环境的所有状态时,环境是完全可观测的,通常情况下被建模成一个马尔可夫决策过程(MDP)的问题。

2024-06-19 09:38:37 942

原创 Linux系统想要关掉正在运行的软件,点x不管用

再选中想要关闭的软件点右上角×即可。

2024-06-17 08:54:36 513 1

原创 multi_bandit多臂老虎机代码实现

代码来源于b站up主 -xurunnan- 侵删。

2024-05-31 09:46:59 261

原创 强化学习代码

【代码】强化学习代码。

2024-05-24 10:00:00 195 1

原创 强化学习环境MPE

MPE - PettingZoo Documentation (farama.org)

2024-05-23 18:17:25 293 1

原创 RuntimeError: PytorchStreamReader failed locating file data.pkl: file not found

代码一直都能运行,没有改任何一个数字,出现这个问题之后,在Ubuntu系统的文档下新建一个文件夹,将运行报错的文件复制一份粘贴到documention文档,在pycharm中左上角file open 在文档中打开这个报错的文件,binggo~ 成功运行不报错,在此多谢我的好师姐!

2024-02-27 19:43:22 1120

原创 运行MPE代码时petting_zoo导入simple_adversary_v3报错解决方式

运行MPE代码时出现这个问题,no module named 'pettingzoo', 在环境下pip pettingzoo之后,simple_adversary_v3报红。很有可能是python版本的问题,解决方法1.更新python版本,2.创建一个特定python版本的环境,以下为创建特定python版本环境的方法。

2024-01-13 20:19:38 1894 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除