- 博客(20)
- 收藏
- 关注
原创 Ubuntu下conda环境中Python无法切换
会存在两者冲突情况,今天在跑之前的代码时发现Conda中的Python被系统Python所覆盖,无论怎么更新Conda中的Python都没用。经过一些列捣鼓,终于解决了。2、添加别称,从用户级层面设置Python来覆盖系统Python。UbuntuPython分为。1、进入bashrc。3、更新bashrc。
2024-03-10 10:33:50
860
原创 DRQN理解
DRQN理解,两种更新方式,注意第一种方式(顺序更新)的图,它是从timestep1开始一直到整个episode结束,输出每个timestep的Q值。而第二种方式(随机更新)目的是输出timestep x的Q值,所以需要前面一些timestep的信息。作者在文中说明,顺序更新不符合DQN随机采样的思想;而随机更新又因为每次更新新的timestep的Q时会重置h,导致很难去学习跨时间尺度的信息。但是最后两种方式的有相同的性能,而作者为了降低复杂性使用的是随机更新方式。
2023-09-07 11:00:02
1322
原创 【单智能体应用、扰动、实时调度】扰动下能量目标列车时刻表重调度问题的深度强化学习方法
扰动下能量目标列车时刻表重调度问题的深度强化学习方法。A Deep Reinforcement Learning Approach for the Energy-Aimed Train Timetable Rescheduling Problem Under Disturbances
2023-07-21 21:44:57
497
原创 【MAAC,MARL注意力机制】多智能体强化学习的Actor-Attention-Critic算法
【MAAC,MARL注意力机制】多智能体强化学习的Actor-Attention-Critic算法 MAAC。
2023-07-20 11:30:34
2688
原创 【应用、注意力机制MARL】基于多智能体强化学习的微电网分布式能源交易与调度
Distributed Energy Trading and Scheduling Among Microgrids via Multiagent Reinforcement Learning带有注意力机制的多智能体强化学习(MARL)方法
2023-07-19 10:13:37
1161
原创 FRL模糊强化学习
Fuzzy Sarsa Learning(模糊Sarsa学习)、 Fuzzy Q-learning (FQL,模糊Q-learning) 、Fuzzy Actor-Critic learning (FACL)、FRL模糊强化学习
2023-07-15 10:35:10
1548
原创 【单智能体应用、分配算法、基于Q-learning】基于强化学习的电动汽车充电站收益最大化算法
表示车辆到达不同充电状态的支付费用(期望时间内获取的电量越多(快充)则越贵),在每个时间步数组按TTL排序,如果TTL一致,则按类型排序。车辆以任何时间到达电站,但最早需要在下一小时开始时充电。max指的是一辆最初空着的汽车充满电的价格,根据实验,设置为一个episode为一天,一个小时step一次。为均值,带入k即可计算每个时段到达k个车辆的概率。价格购买额外的电量,价格是变化的;为初始态(在实验中根据历史信息手动配置);,电站还会获取车辆预计离开时间(TTL)对比实验:取M=5,k=3的时候,与。
2023-07-14 16:02:59
462
原创 MMADDPG 针对智能电网充电站最佳能量调度策略的多步多智能体强化学习
现有的一些研究只考虑了一个充电站的情况或忽略了多个充电站情况下电动汽车在能量分配过程中的意愿(如价格或与充电站的距离)现有的一些研究只考虑了一个充电站的情况或忽略了多个充电站情况下电动汽车在能量分配过程中的意愿(如价格或与充电站的距离)表示衡量两部分在意愿中的重要程度的系数,第一部分为汽车充电的紧迫程度,第二部分为车辆与电站距离。OHD对比:1)随机方案 2)最大距离方案 3)最大充电量方案。OHD对比:1)随机方案 2)最大距离方案 3)最大充电量方案。:1)最小化车站距离 2)最大化充电量。
2023-07-13 17:48:21
872
原创 基于PVess的电动汽车充电站协同管理一种多智能体深度强化学习方法
充电量-最小电量 > 需求的话,充电效益=需求 *价格 *系数,超过需求的部分作为共享能量。共享都不足时,需要购买,购买电力 = max{不足能量 - 其他ESS可提供的能量,0}过充损失 = -[(满足所有共享需求后仍有的剩余 + 充电量)- 最大直冲量] *价格。EVCS首先使用相连的ESS的电力,不足时使用共享电力,称之需求能量,用向量。,如果售出的能量大于购买的能量,会得到奖励。而对于不足的EVCS需要购买,购买的电力用。,会优先使用距离最近的ESS的电力。,满足所有共享需求后仍有剩余的用向量。
2023-07-11 21:02:32
410
原创 【奖励分配】反事实多智能体策略梯度
Independent Actor-Critic:缺乏信息时很难学到协调策略,也难以评估单个agent action在整体中的奖励。在agent之间共享参数:只学习一个演员和一个评论家,它们被所有agent使用。此外,计算每个agent的优势函数:将Q值与反事实基线(任何一个agent的改进会提高整体奖励。学习,将全局奖励与agent a的默认动作(,并且agent的动作不依赖于默认动作。,当a的动作发生变化时直接从经验中学习。为agent a的历史观察。及对应的梯度,和下面一样。及对应的梯度,优势函数。
2023-07-10 11:22:07
604
原创 基于多智能体强化学习的自动公交车队控制
存在噪声:因为随机到达和对环境不完全的观察——提出结合先进策略梯度算法的多智能体强化学习方法相对于启发式算法、动态规划算法,强化学习方法在随机和高维情况下是有效的主要贡献1、**建模:**提出了多智能体强化学习方法来解决公交车队调度问题2、开发了**仿真平台(基于SimPy)**用于评估算法3、提出的强化学习方法优于其他方法。
2023-07-07 10:48:58
675
原创 分布式多智能体深度强化学习在多线动态公交时刻表优化中的应用
提出了一种多智能体深度强化学习框架学习信息不完全的情况采用分布式强化学习算法克服了计算成本高、效率低的局限性多线调度:一个公共汽车站可能由几条不同的公共汽车线路共享,乘客可以有多种路线选择到达目的地,调度时应考虑多条公交线路之间的相互作用。分布式强化学习相关知识: asynchronous advantage actor–critic 算法和 importance weighted actor–learner architecture 算法;
2023-07-05 10:36:22
552
原创 基于强化学习的多智能体系统调度
提出了一种新方法,新方法基于构建奖励函数来激励智能体遵守调度。模型的架构基于多智能体版本PPO学习的集中式批评。Flatland 3竞赛中获得第一名,竞赛的主要目的是开发一种算法,根据给定的时间表有效控制复杂铁路网络中的密集交通。约束涉及到了时刻表、临时故障、各个agent的速度不一样的问题。竞赛的目标是设计和实现一种列车调度算法,使所有列车在规定的到达时间内以最小的延迟到达目的地。铁路问题的解决方案主要是使用带有集中批评的强化学习方法,但时刻表的概念带来新的困难。
2023-06-30 12:11:28
1663
原创 针对混合合作竞争环境下的多智能体演员-评论家网络
Q-learning受到环境non-stationarity的影响,策略梯度则受到随着智能体数量增加而增加。本文提出:一种适应演员-评论家网络方法,该方法考虑了其他agent的行动策略,并能够成功地学习需要复杂multi-agent 协调的策略。引入了一种训练方案,利用每个agent的策略集合,从而产生更健壮的multi-agent 策略。传统的强化学习方法,如Q-Learning或策略梯度,不太适合多智能体环境。原因在于:1.随着训练的进行,每个agent的策略都在变化。
2023-06-27 19:18:00
400
原创 深度多智能体强化学习的稳定经验回放
因为独立Q-learing引入的不稳定性(nonstationary)使其与深度Q-learning所依赖的不兼容,提出两种方法来解决方法一:使用多智能体采样重要性的变化来衰减过时(obsolete)的数据方法二:将每个智能体的值函数设置在一个指纹()上,消除从replay memory 中采样数据的时间歧义使用独立Q-learning(IQL)来消除多智能体不同观测值的歧义问题:每个智能体独立学习自己的策略,将其他智能体视为环境的一部分。但从每个智能体来看,环境变得并不稳定。
2023-06-23 11:48:44
483
原创 利用反向传播学习多智能体通信
在现实世界中,每个参与者的能力和对世界的可见性都有限虽然控制每个代理的模型通常是通过强化学习来学习的,但通信的规范和格式通常是预先确定的(每个时间步交流信息)
2023-06-22 10:45:53
186
原创 pymongo实现表增量复制
Mongodb复制表;pymongo复制表。最近在工程上遇到MongoDB表增量复制到另一个表的问题。需求是因为原表的数据会定时删除,而目前想要保存原表的数据。简单理解为:原表删,新表不删。关键在于upstart参数设置:为True时,如果没有匹配的文档,则创建一个新文档。将一个实例的表复制到另一个实例的表(同一个数据库)collection_name:数据库表名。new_database:目标数据库。
2022-10-27 20:45:27
456
原创 trying to create rpc server for traffic manager; but the system failed to cr
使用Carla 运行脚本时出现 RuntimeError: trying to create rpc server for traffic manager; but the system failed to create because of bind error.
2022-09-21 17:26:08
2263
原创 数据库笔记
DDL创建表create table student ( id bigint, stu_name varchar(50), stu_age int);修改表alter table student add stu_gender tinyint; #添加一列alter table student modify stu_name char(30); #修改一列alter table student change stu_name s_name char(30); #修改列名desc s
2020-09-25 22:39:08
264
原创 markdown部分操作
文章目录具体操作Ctrl+1 一阶标题 Ctrl+B 字体加粗Ctrl+2 二阶标题 Ctrl+I 字体倾斜Ctrl+3 三阶标题 Ctrl+U 下划线Ctrl+4 四阶标题 Ctrl+Home 返回Typora顶部Ctrl+5 五阶标题 Ctrl+End 返回Typora底部Ctrl+6 六阶标题 Ctrl+T 创建表格Ctrl+L 选中某句话 Ctrl+K 创建超链接Ctrl+D 选中某个单词 Ctrl+F
2020-09-25 22:36:50
168
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅