- 博客(41)
- 问答 (1)
- 收藏
- 关注
原创 【Paper Tips】随记5-期刊投稿阶段说明
时间周期总结根据下述已投稿反馈,平均Accept周期为:4 months结合小木虫论坛得反馈,平均周期在4~5个月左右,算是比较快了。投稿建议总结①尽量代码开源。这样无形会增加审稿人对你实验结果的可信度。②建议引用投稿期刊的文献。会让人审稿人觉得与期刊符合度较高。即时订阅邮箱信息,第一时间知晓论文审阅动态。回复审稿人意见需要充分且礼貌。
2025-03-31 15:50:12
795
原创 【Paper Tips】随记4-快速获取网页规范化数据
网络爬虫其实非常简单,前提就是你要爬取的数据是规范化数据。定位html元素正则化表达式匹配。需要注意爬取内容的合规性,需确保为公开数据。网页html代码可能反复变化,若需要每日爬取,可能需要多次“定位+匹配”,或者找到规律。
2025-03-27 09:50:38
531
原创 【动手学强化学习】番外5-MPE(Multi-agent Particle-World Environment)多智能体仿真环境介绍
该篇介绍了MPE多智能体仿真环境的概况,并以两个典型的合作型子环境进行了代码复现;从MPE环境了解可得,MARL算法对应用场景的建模大多数都是基于POMDP的,因此后续自建环境时需考虑到以下关键因素:(1) 环境对象(agents、 landmarks)(2) 通信(全局广播、局部共享)(3) 全局状态空间(4) Agent观察空间(5) 联合动作空间(离散、连续)(6) 终止条件(7) 奖励规则从环境自建的角度还是离不开重要的4步,确定算法框架部分可观测马尔可夫建模。
2025-03-24 11:00:10
871
原创 【Paper Tips】随记3-Microsoft Edge浏览器常用快捷键
Edge浏览器本身不支持自定义快捷键。如果你需要自定义快捷键,可以通过安装浏览器扩展来实现Edge浏览器中快捷键无法自定义,有些常用的快捷键可以记一记。
2025-03-20 15:30:05
798
原创 【文献精读】-MAPPO+IPPO算法文献
近似策略优化( PPO )是一种无处不在的在策略强化学习算法,但在多智能体环境中的应用明显少于非策略学习算法。这往往是由于在多智能体系统中,PPO的样本效率明显低于非策略方法。在这项工作中,我们仔细研究了PPO在协作多智能体环境中的性能。我们展示了基于PPO的多智能体算法在粒子世界环境、星际争霸多智能体挑战、谷歌研究足球和Hanabi挑战这4个流行的多智能体测试床上取得了出人意料的强性能,并且没有任何特定领域的算法修改或架构。
2025-03-18 16:11:35
1075
原创 【动手学强化学习】part8-PPO(Proximal Policy Optimization)近端策略优化算法
PPO算法是基于TRPO算法的改进,TRPO算法的数学原理比较复杂,以后有机会深入学习。
2025-03-15 18:59:31
718
原创 【动手学强化学习】番外3-MARLlib之MAPPO+MPE算法示例结果可视化(经验总结)
MARLlib无法直接采用最新版本ray,源码中太多库引入import需要更新了。希望作者能够早日更新版本吧!
2025-03-04 22:35:19
980
原创 【动手学强化学习】番外2-多智能体强化学习算法框架之“MARLlib”学习
多智能体强化学习库(MARLlib)是一个利用 Ray 及其工具包之一 RLlib 的 MARL 库。它为在各种任务和环境中开发、训练和测试 MARL 算法提供了一个综合平台。❓什么是“Ray 及其工具包之一 RLlib”?✅Ray是一个用于构建和运行分布式应用程序的开源框架,它通过提供简单的编程模型和高效的资源调度,使得开发者能够轻松地将单机程序扩展到分布式环境。
2025-03-03 17:49:43
1069
原创 【OS安装与使用】part6-ubuntu 22.04+CUDA 12.4运行MARL算法(多智能体强化学习)
搭建一个学习环境,还是要以“目标导向”来实现,例如【OS安装与使用】这个系列就是为了运行MARL算法。学习的过程就像是 “搭积木” ,哪里缺失补充哪里,不要想着一口吃成一个胖子,一步一步解决当前存在的问题,脚踏实地。遇到问题,不要总想着依赖其它人或物,先自身寻找答案,耐心一些,仔细一些。先确定问题本质,如若是创新性的难题,无人遇到过,可直接找 “大同行” 交流;如若是大家都做过的事项,先从自身出发,寻找解决之道,尝试许多方法,依然无解过后,再另寻他见。
2025-02-21 15:43:06
967
原创 【OS安装与使用】part5-ubuntu22.04基于conda安装pytorch+tensorflow
GPU、显卡驱动、CUDA Toolkit都是nvidia官方提供的。pytorch 作为深度学习框架提供了许多模型,用户可以基于这些模型开发自己应用。anaconda 作为包管理工具可以很好地控制各开发代码的环境,编写新代码时建议创建新环境,以更好控制代码版本。
2025-02-20 11:56:11
1338
原创 【OS安装与使用】part3-ubuntu安装Nvidia显卡驱动+CUDA 12.4
安装新的软件或系统时,注意记录,以便分析!!!安装过程最好按照软件的官方教程!!!安装过程遇到错误不要随意搜索,仔细分析过程中的报错信息,按图索骥!!!
2025-02-19 15:33:52
2571
原创 【OS安装与使用】part1-ubuntu安装(双硬盘双系统)
ubuntu系统安装还是比较方便快捷的,主要需要注意的点就是数据备份,安装系统过程中不可避免地需要格式化,注意注意注意!!!
2025-02-17 16:15:10
951
原创 【OS安装与使用】part2-双系统安装后,进入win系统pin不可用问题解决
电脑只要硬件层面上没有完全损坏,不要轻易重置系统。平时多做好备份。
2025-02-17 16:08:25
620
1
原创 【Paper Tips】随记2-word版快速删除某字符
对应不同的字符可以设置不同的宏,以提高word编辑效率。word中还存在一个重复上述操作的快捷键 “F4”,也能提高批量处理的效率。
2025-01-25 17:45:20
947
原创 【Paper Tips】随记1-word版打印公式
各种公式输入方法都有优缺点,按照个人喜好使用即可,但从大批量键入公式的工作量而言,还是应用STIX Two Math字体输入更为方便快捷。
2024-12-31 17:00:34
1353
原创 【动手学强化学习】番外1-CartPole_v1环境源码详解及自建环境建议
Cart Pole即车杆游戏,游戏模型如下图所示。游戏里面有一个小车,上有竖着一根杆子,每次重置后的初始状态会有所不同。小车需要左右移动来保持杆子竖直,为了保证游戏继续进行需要满足以下两个条件:杆子倾斜的角度必须保持在[-12°,12°]之间;小车移动的位置需保持在一定范围,[-2.4,2.4]单位长度之间。确定算法框架:先从网上示例程序出发,以简单的交互环境(如CartPole)跑通算法(如A2C、PPO等),然后以该算法为基础确定与环境交互的部分有哪些。
2024-12-12 17:45:54
1488
原创 【STK学习】part2-星座-目标可见性与覆盖性分析
星地/星间可见性分析是在建立对象后,利用“Chain”对象进行分析;星地/星间可见性分析中“一对多、多对一”约束是在“Constellation”属性中“Logical Restriction”进行设置;报告的生成都是基于“Report&Graph Manager”功能。
2024-11-20 16:25:05
2243
2
原创 【STK学习】part1-卫星轨道与Walker星座基础知识
卫星的轨道及位置由轨道六根数(、、、、、)可以完全确定;所选研究星座位均匀分布时,可以基于walker星座快速生成。
2024-11-08 11:29:55
2353
4
原创 【STK学习】part0-下载TLE数据并生成星座
获取卫星实时轨道数据,参考celestrak和space-track(需注册)查看卫星发射信息及相关载荷信息,参考Gunter’s space page查看卫星实时轨道位置,参考space tracker 3D和n2yo。
2024-11-08 10:45:07
2286
原创 【动手学强化学习】part7-Actor-Critic算法
Actor-Critic算法算是DQN与REINFORCE算法的结合,集成了值函数近似和策略梯度下降方法。ActorCritic 是囊括一系列算法的整体架构,目前很多高效的前沿算法都属于 Actor-Critic 算法。
2024-10-29 16:20:30
1370
原创 【动手学强化学习】part6-策略梯度算法
REINFORCE算法采用policy_net网络去显示地表征policy,采用蒙特卡洛的方法去估计q(s,a),智能体根据当前策略直接和环境交互,通过采样得到的轨迹数据直接计算出策略参数的梯度,进而更新当前策略,使其向最大化策略期望回报的目标靠近。
2024-10-28 21:42:24
945
原创 【动手学强化学习】part5-值函数近似算法
给定“黑盒”环境,求解最优policy前序章节中以MC或TD方法构建model-free算法,以求解“黑盒”模型下的最优policy,但在action value(q(s,a))估计以Q_table的表格形式存储记录,在状态、动作空间较小时能够很好适应,但状态、动作空间扩大以后,算法运行时将承载巨大的存储压力。更甚者,当状态或者动作连续的时候,就有无限个状态动作对,我们更加无法使用这种表格形式来记录各个状态动作对的q(s,a)值。本节算法需要通过值函数近似的方法进行Q(s,a)的估计,相对于线性函数拟合,深
2024-10-24 22:38:17
820
原创 【动手学强化学习】part4-时序差分算法
MC和TD算法都是“黑盒”模型下的model-free算法,但TD算法应用了incremental(“增量式”)的思想去估计action value,等待成本更低,边更新q(s,a)估计值边更新policy。强化学习中,“模型”和“数据”必有其一,不然无法求解。off policy相对于on policy的优势在于,采样数据可以充分利用,具有更小的样本复杂度,target policy是Q-laerning算法相对于SARSA算法在解的最优性和收敛速度上有明显优势。
2024-10-24 11:12:28
875
原创 【动手学强化学习】part3-蒙特卡洛算法
Monte Carlo法是首个model-free的方法,后续问题之中多数都是“黑盒”模型,需要通过不断与环境交互产生的episode进行*v(s) q(s,a)*值估计。
2024-10-23 21:33:43
860
原创 【动手学强化学习】part2-动态规划算法
*动态规划(dynamic programming)**是程序设计算法中非常重要的内容,能够高效解决一些经典问题,例如背包问题和最短路径规划。动态规划的基本思想是将待求解问题分解成若干个子问题,先求解子问题,然后从这些子问题的解得到目标问题的解。动态规划会保存已解决的子问题的答案,在求解目标问题的过程中,需要这些子问题答案时就可以直接利用,避免重复计算。基于动态规划的强化学习算法主要有两种:一是策略迭代(policy iteration),二是价值迭代(value iteration)。(1)创建环境。
2024-10-23 16:05:25
1108
1
原创 【动手学强化学习】part1-初探强化学习
初次接触强化学习的内容,主要学习参考以下两大部分:(1)【动手学强化学习】——上海交大,张伟楠教授团队①教学视频②教材内容(2)【强化学习的数学原理】——西湖大学,赵世钰教授团队①教学视频②B站大佬代码实现此专栏只为记录个人学习情况,若有不对之处,欢迎评论区交流讨论。理解一个新型的事物、技术,个人习惯性地采用“5W1H”的方式建立知识体系框架,下面以个人理解的方式去进行强化学习这项技术内涵的阐述。阐述①:广泛地讲,强化学习是机器通过与环境交互来实现目标的一种计算方法。
2024-10-22 12:51:46
1175
原创 【动手学深度学习】part15-基于kaggle数据集预测房价算法实例
独热编码(One-Hot Encoding)是一种将分类变量(类别特征)转换为二进制向量的编码方法。这种方法常用于机器学习和数据分析中,以便将非数值的类别数据转换为数值形式,从而可以被机器学习算法所处理。
2024-10-21 16:37:31
750
原创 【动手学深度学习】part9-softmax回归
Softmax 回归(也称为多项式逻辑回归或最大熵分类器)是一种用于多分类问题的线性模型。它主要用于将输入数据映射到多个离散类别中的一个。Softmax 回归是逻辑回归(Logistic Regression)的扩展,适用于多分类任务,而不是二分类任务。用沐神两页ppt阐述softmax回归里的核心概念。
2024-10-12 10:52:59
1245
原创 【动手学深度学习】part10-多层感知机
多层感知机(Multilayer Perceptron,MLP)是一种前馈人工神经网络模型,它由多个层级组成,每个层级包含多个神经元。MLP 最基本的形式包括一个输入层、一个或多个隐藏层以及一个输出层。每层中的神经元与下一层的所有神经元完全连接,形成一种“全连接”的网络结构。这种结构使得MLP能够学习输入数据与输出之间的复杂非线性关系。主要组成部分(1)输入层:接收原始输入数据。每个神经元代表输入数据的一个特征。(2)隐藏层:位于输入层和输出层之间的一层或多层。
2024-10-12 10:38:33
1180
原创 Anaconda安装Tensorflow
(⚠️Tips:安装GPU版应该需要提前安装好CUDA Toolkit+cuDNN,后续有需要再安装)通过conda list命令查看tensorflow安装的版本。上述方式表明安装为CPU版,若安装为GPU版会显示“GPU”tensoflow在github上直接给出的安装方式。conda命令行中输入。
2024-09-04 16:11:41
497
空空如也
求助,pddl语言的教学实例和规划器的下载。
2019-07-10
TA创建的收藏夹 TA关注的收藏夹
TA关注的人