SI_Gamer-优快云博客

时间周期总结根据下述已投稿反馈，平均Accept周期为：4 months结合小木虫论坛得反馈，平均周期在4~5个月左右，算是比较快了。投稿建议总结①尽量代码开源。这样无形会增加审稿人对你实验结果的可信度。②建议引用投稿期刊的文献。会让人审稿人觉得与期刊符合度较高。即时订阅邮箱信息，第一时间知晓论文审阅动态。回复审稿人意见需要充分且礼貌。

2025-03-31 15:50:12 1417

原创【Paper Tips】随记4-快速获取网页规范化数据

网络爬虫其实非常简单，前提就是你要爬取的数据是规范化数据。定位html元素正则化表达式匹配。需要注意爬取内容的合规性，需确保为公开数据。网页html代码可能反复变化，若需要每日爬取，可能需要多次“定位+匹配”，或者找到规律。

2025-03-27 09:50:38 559

原创【动手学强化学习】番外5-MPE(Multi-agent Particle-World Environment)多智能体仿真环境介绍

该篇介绍了MPE多智能体仿真环境的概况，并以两个典型的合作型子环境进行了代码复现；从MPE环境了解可得，MARL算法对应用场景的建模大多数都是基于POMDP的，因此后续自建环境时需考虑到以下关键因素：(1) 环境对象（agents、 landmarks）(2) 通信（全局广播、局部共享）(3) 全局状态空间(4) Agent观察空间(5) 联合动作空间（离散、连续）(6) 终止条件(7) 奖励规则从环境自建的角度还是离不开重要的4步，确定算法框架部分可观测马尔可夫建模。

2025-03-24 11:00:10 1582

原创【Paper Tips】随记3-Microsoft Edge浏览器常用快捷键

Edge浏览器本身不支持自定义快捷键。如果你需要自定义快捷键，可以通过安装浏览器扩展来实现Edge浏览器中快捷键无法自定义，有些常用的快捷键可以记一记。

2025-03-20 15:30:05 1027

原创【文献精读】-MAPPO+IPPO算法文献

近似策略优化( PPO )是一种无处不在的在策略强化学习算法，但在多智能体环境中的应用明显少于非策略学习算法。这往往是由于在多智能体系统中，PPO的样本效率明显低于非策略方法。在这项工作中，我们仔细研究了PPO在协作多智能体环境中的性能。我们展示了基于PPO的多智能体算法在粒子世界环境、星际争霸多智能体挑战、谷歌研究足球和Hanabi挑战这4个流行的多智能体测试床上取得了出人意料的强性能，并且没有任何特定领域的算法修改或架构。

2025-03-18 16:11:35 1350

原创【动手学强化学习】part8-PPO(Proximal Policy Optimization)近端策略优化算法

PPO算法是基于TRPO算法的改进，TRPO算法的数学原理比较复杂，以后有机会深入学习。

2025-03-15 18:59:31 914

原创【动手学强化学习】番外4-MAPPO benchmark+wandb算法训练结果记录

以后有必要的话就安装本地版本的，后续会更新。

2025-03-06 17:24:24 785

原创【动手学强化学习】番外3-MARLlib之MAPPO+MPE算法示例结果可视化（经验总结）

MARLlib无法直接采用最新版本ray，源码中太多库引入import需要更新了。希望作者能够早日更新版本吧！

2025-03-04 22:35:19 1222 2

原创【动手学强化学习】番外2-多智能体强化学习算法框架之“MARLlib”学习

多智能体强化学习库（MARLlib）是一个利用 Ray 及其工具包之一 RLlib 的 MARL 库。它为在各种任务和环境中开发、训练和测试 MARL 算法提供了一个综合平台。❓什么是“Ray 及其工具包之一 RLlib”？✅Ray是一个用于构建和运行分布式应用程序的开源框架，它通过提供简单的编程模型和高效的资源调度，使得开发者能够轻松地将单机程序扩展到分布式环境。

2025-03-03 17:49:43 1438 2

原创【OS安装与使用】part6-ubuntu 22.04+CUDA 12.4运行MARL算法（多智能体强化学习）

搭建一个学习环境，还是要以“目标导向”来实现，例如【OS安装与使用】这个系列就是为了运行MARL算法。学习的过程就像是 “搭积木” ，哪里缺失补充哪里，不要想着一口吃成一个胖子，一步一步解决当前存在的问题，脚踏实地。遇到问题，不要总想着依赖其它人或物，先自身寻找答案，耐心一些，仔细一些。先确定问题本质，如若是创新性的难题，无人遇到过，可直接找 “大同行” 交流；如若是大家都做过的事项，先从自身出发，寻找解决之道，尝试许多方法，依然无解过后，再另寻他见。

2025-02-21 15:43:06 1015

原创【OS安装与使用】part5-ubuntu22.04基于conda安装pytorch+tensorflow

GPU、显卡驱动、CUDA Toolkit都是nvidia官方提供的。pytorch 作为深度学习框架提供了许多模型，用户可以基于这些模型开发自己应用。anaconda 作为包管理工具可以很好地控制各开发代码的环境，编写新代码时建议创建新环境，以更好控制代码版本。

2025-02-20 11:56:11 1579

原创【OS安装与使用】part4-ubuntu22.04安装anaconda

暂无。

2025-02-19 17:18:34 716

原创【OS安装与使用】part3-ubuntu安装Nvidia显卡驱动+CUDA 12.4

安装新的软件或系统时，注意记录，以便分析！！！安装过程最好按照软件的官方教程！！！安装过程遇到错误不要随意搜索，仔细分析过程中的报错信息，按图索骥！！！

2025-02-19 15:33:52 4421

原创【OS安装与使用】part1-ubuntu安装（双硬盘双系统）

ubuntu系统安装还是比较方便快捷的，主要需要注意的点就是数据备份，安装系统过程中不可避免地需要格式化，注意注意注意！！！

2025-02-17 16:15:10 1194

原创【OS安装与使用】part2-双系统安装后，进入win系统pin不可用问题解决

电脑只要硬件层面上没有完全损坏，不要轻易重置系统。平时多做好备份。

2025-02-17 16:08:25 1241 3

原创【OS安装与使用】part0-m.2固态硬盘开箱检测与异常排查

各类SSD都可以用如上方式进行开箱检验。

2025-02-16 11:53:45 707

原创【Paper Tips】随记2-word版快速删除某字符

对应不同的字符可以设置不同的宏，以提高word编辑效率。word中还存在一个重复上述操作的快捷键 “F4”，也能提高批量处理的效率。

2025-01-25 17:45:20 991

原创【Paper Tips】随记1-word版打印公式

各种公式输入方法都有优缺点，按照个人喜好使用即可，但从大批量键入公式的工作量而言，还是应用STIX Two Math字体输入更为方便快捷。

2024-12-31 17:00:34 1493

原创【动手学强化学习】番外1-CartPole_v1环境源码详解及自建环境建议

Cart Pole即车杆游戏，游戏模型如下图所示。游戏里面有一个小车，上有竖着一根杆子，每次重置后的初始状态会有所不同。小车需要左右移动来保持杆子竖直，为了保证游戏继续进行需要满足以下两个条件：杆子倾斜的角度必须保持在[-12°,12°]之间；小车移动的位置需保持在一定范围，[-2.4,2.4]单位长度之间。确定算法框架：先从网上示例程序出发，以简单的交互环境（如CartPole）跑通算法（如A2C、PPO等），然后以该算法为基础确定与环境交互的部分有哪些。

2024-12-12 17:45:54 1814

原创【STK学习】part2-星座-目标可见性与覆盖性分析

星地/星间可见性分析是在建立对象后，利用“Chain”对象进行分析；星地/星间可见性分析中“一对多、多对一”约束是在“Constellation”属性中“Logical Restriction”进行设置；报告的生成都是基于“Report&Graph Manager”功能。

2024-11-20 16:25:05 2986 2

原创【STK学习】part1-卫星轨道与Walker星座基础知识

卫星的轨道及位置由轨道六根数（、、、、、）可以完全确定；所选研究星座位均匀分布时，可以基于walker星座快速生成。

2024-11-08 11:29:55 3797 4

原创【STK学习】part0-下载TLE数据并生成星座

获取卫星实时轨道数据，参考celestrak和space-track（需注册）查看卫星发射信息及相关载荷信息，参考Gunter’s space page查看卫星实时轨道位置，参考space tracker 3D和n2yo。

2024-11-08 10:45:07 2845

原创【动手学强化学习】part7-Actor-Critic算法

Actor-Critic算法算是DQN与REINFORCE算法的结合，集成了值函数近似和策略梯度下降方法。ActorCritic 是囊括一系列算法的整体架构，目前很多高效的前沿算法都属于 Actor-Critic 算法。

2024-10-29 16:20:30 1426

原创【动手学强化学习】part6-策略梯度算法

REINFORCE算法采用policy_net网络去显示地表征policy，采用蒙特卡洛的方法去估计q(s,a),智能体根据当前策略直接和环境交互，通过采样得到的轨迹数据直接计算出策略参数的梯度，进而更新当前策略，使其向最大化策略期望回报的目标靠近。

2024-10-28 21:42:24 994

原创【动手学强化学习】part5-值函数近似算法

给定“黑盒”环境，求解最优policy前序章节中以MC或TD方法构建model-free算法，以求解“黑盒”模型下的最优policy，但在action value（q(s,a)）估计以Q_table的表格形式存储记录，在状态、动作空间较小时能够很好适应，但状态、动作空间扩大以后，算法运行时将承载巨大的存储压力。更甚者，当状态或者动作连续的时候，就有无限个状态动作对，我们更加无法使用这种表格形式来记录各个状态动作对的q(s,a)值。本节算法需要通过值函数近似的方法进行Q(s,a)的估计，相对于线性函数拟合，深

2024-10-24 22:38:17 876

原创【动手学强化学习】part4-时序差分算法

MC和TD算法都是“黑盒”模型下的model-free算法，但TD算法应用了incremental（“增量式”）的思想去估计action value，等待成本更低，边更新q(s,a)估计值边更新policy。强化学习中，“模型”和“数据”必有其一，不然无法求解。off policy相对于on policy的优势在于，采样数据可以充分利用，具有更小的样本复杂度，target policy是Q-laerning算法相对于SARSA算法在解的最优性和收敛速度上有明显优势。

2024-10-24 11:12:28 923

原创【动手学强化学习】part3-蒙特卡洛算法

Monte Carlo法是首个model-free的方法，后续问题之中多数都是“黑盒”模型，需要通过不断与环境交互产生的episode进行*v(s) q(s,a)*值估计。

2024-10-23 21:33:43 936

原创【动手学强化学习】part2-动态规划算法

*动态规划（dynamic programming）**是程序设计算法中非常重要的内容，能够高效解决一些经典问题，例如背包问题和最短路径规划。动态规划的基本思想是将待求解问题分解成若干个子问题，先求解子问题，然后从这些子问题的解得到目标问题的解。动态规划会保存已解决的子问题的答案，在求解目标问题的过程中，需要这些子问题答案时就可以直接利用，避免重复计算。基于动态规划的强化学习算法主要有两种：一是策略迭代（policy iteration），二是价值迭代（value iteration）。（1）创建环境。

2024-10-23 16:05:25 1173 1

空空如也

求助，pddl语言的教学实例和规划器的下载。