Anna_wjy-优快云博客

原创提升下载速度+国内镜像源

【代码】提升下载速度+国内镜像源。

2024-09-11 10:31:27 191

原创 ubuntu软件卡住关不掉（已解决）

输入pkill 点击要关掉的app。

2024-08-05 17:09:14 373

原创博弈强化学习

斯坦福大学 - 算法博弈论与计算机制设计：MIT - 算法博弈论：普林斯顿大学 - 算法博弈论：Coursera上的在线课程：

2024-06-19 10:32:48 254

使用本节中小船的例子，当得到一个马尔可夫奖励过程后，我们可以从某一个状态开始，把小船放到水中，让它随波流动，这样就会产生一个轨迹，从而得到一个折扣后的奖励 g。动作空间（action space）、离散动作空间（discrete action space）和连续动作空间（continuous action space）：在给定的环境中，有效动作的集合被称为动作空间，智能体的动作数量有限的动作空间称为离散动作空间，反之，则被称为连续动作空间。奖励函数是一个期望，即在某一个状态可以获得多大的奖励。

2024-06-19 09:40:30 319

原创 easyrl笔记

智能体如何在环境里最大化自己的奖赏。强化学习很难的原因在于智能体不能立刻得到反馈，而我们仍然希望智能体在这个环境里学习。（延迟奖励）强化学习输入的是时间序列数据，奖励延迟，不断试错。强化学习可以有超人类的表现。智能体的目的从观测种学到最大化奖励的策略。强化学习的目的就是最大化智能体可以得到的期望的累计奖赏。重要课题：近期以及远期奖赏的权衡，如何获得更多的远期奖赏。当智能体可以观察到环境的所有状态时，环境是完全可观测的，通常情况下被建模成一个马尔可夫决策过程（MDP）的问题。

2024-06-19 09:38:37 942

原创 Linux系统想要关掉正在运行的软件，点x不管用

再选中想要关闭的软件点右上角×即可。

2024-06-17 08:54:36 513 1

原创 multi_bandit多臂老虎机代码实现

代码来源于b站up主 -xurunnan- 侵删。

2024-05-31 09:46:59 261

原创强化学习代码

【代码】强化学习代码。

2024-05-24 10:00:00 195 1

原创强化学习环境MPE

MPE - PettingZoo Documentation (farama.org)

2024-05-23 18:17:25 293 1

原创 RuntimeError: PytorchStreamReader failed locating file data.pkl: file not found

代码一直都能运行，没有改任何一个数字，出现这个问题之后，在Ubuntu系统的文档下新建一个文件夹，将运行报错的文件复制一份粘贴到documention文档，在pycharm中左上角file open 在文档中打开这个报错的文件，binggo~ 成功运行不报错，在此多谢我的好师姐！

2024-02-27 19:43:22 1120

原创运行MPE代码时petting_zoo导入simple_adversary_v3报错解决方式

运行MPE代码时出现这个问题，no module named 'pettingzoo', 在环境下pip pettingzoo之后，simple_adversary_v3报红。很有可能是python版本的问题，解决方法1.更新python版本，2.创建一个特定python版本的环境，以下为创建特定python版本环境的方法。

2024-01-13 20:19:38 1894 3

qq_47368990的博客