- 博客(273)
- 资源 (7)
- 问答 (28)
- 收藏
- 关注
原创 【普】人机协同决策的异质多智能体路径规划
本文提出了一种融合混合现实(MR)与人机协同决策(HMCDM)的异质多智能体路径规划方法HMATD3,以解决复杂动态环境中异质智能体的协同导航问题。方法包含三个关键模块:1)基于危险度的离线规划,通过改进A*算法的启发式函数降低碰撞风险;2)基于深度强化学习(DRL)的在线规划,采用改进的MATD3算法实现动态避障;3)人机协同决策模块,通过MR技术将人类专家经验融入路径修正过程。实验表明,该方法能有效处理智能体异质性,提升路径安全性和实用性,其中奖励函数设计结合了路径危险度和RVO避障策略,解决了DRL的
2025-07-20 01:17:23
1125
原创 【精】Generating Adjacency-Constrained Subgoals in Hierarchical Reinforcement Learning
本文提出了一种基于邻接约束的分层强化学习方法(HRAC),通过将高层动作空间限制在当前状态的k步邻域区域,有效解决了目标条件化HRL中训练效率低下的问题。理论分析表明,在确定性MDP中,邻接约束能保持最优分层策略,且可通过邻接网络实现。实验在离散和连续控制任务上验证了HRAC的有效性,相比HIRO等基线方法,在Key Chest、Maze等任务中表现更优。该方法通过参数化近似最短转移距离,结合对比学习训练邻接网络,为HRL提供了一种高效的目标生成机制。
2025-07-18 14:14:59
922
原创 【析精】Landmark-Guided Subgoal Generation in Hierarchical Reinforcement Learning
面对状态多变任务复杂奖励稀疏的环境,HRL是一个不错的选择。面对上层网络需要为下层网络输出子目标。因为会有了一个V(状态,子目标)的价值函数用于评估子目标的好坏。其次子目标的是如何设定的呢?在本文中根据覆盖度和新颖度设计了一批“地标“,也可以看作是子目标的候选集。通过最短路径的方法,获得最紧急而非距离最近的地标点,记为$l_t^{sel}$.它可能距离当前状态过远,直接作为子目标会导致低层策略难以达成。生成伪地标 $g_t^{pseudo}$,将其投影到当前状态的邻域.策略模型分为高层策略和低层策略。两
2025-07-17 18:49:27
658
原创 [析]Deep reinforcement learning for drone navigation using sensor data
MDP无记忆性,使用LSTM补足缺点。PPO解决新旧策略差距大的问题。对于环境中的障碍物,设置增量课程,障碍物由1—>32.使用了PPO8, PPO16, PPO,和启发式算法(基准)作对比实验。PPO8和PPO16在训练初期学习速度较慢,但后期表现更稳定。随着训练进行,PPO8和PPO16的性能逐渐超越PPO,表明记忆机制的有效性。LSTM的时间步数为4or8。输入一个长度为n的状态序列。每步的状态为[时间,障碍物信息,距离dx, dy]。LSTM输出的是策略(即 【动作,概率】),LSTM的优化不
2025-07-16 22:35:17
865
原创 【析】【差】Designing Discontinuities
摘要:本文提出了一种创新方法,通过结合量化理论和因果推断来优化设计不连续性阈值。传统回归不连续性设计(RDD)利用自然断点进行因果推断,但未考虑阈值的最优设计。作者建立了一个量化理论框架,先学习不连续变量的因果效应,再运用动态规划进行最优量化设计,并开发了高效的强化学习算法。实证研究中,该方法被应用于优化全球时区边界设计,通过分析社会资本、社会流动性和健康数据,证明了重新设计时区边界可能提升人类福祉。研究揭示了时区边界对社会资本和COVID-19传播的显著影响,为政策制定提供了新思路。
2025-07-10 15:29:23
920
原创 【论】电力-交通融合网协同优化:迎接电动汽车时代的挑战
本篇论文评估:用GAT建立图结构,用GNN抓取信息,用DQN获得动作选择。说是多智能体,但本质上是单智能体的。但是提供很好了状态向量空间的搭建方法。优点是面对不确定性,采用期望loss值的方法。电动汽车的普及,不仅改变了我们的出行方式,更深刻地重塑着电力系统和交通网络的交互模式。如何高效、智能地协同管理这个融合网络,是当前亟待解决的关键问题。
2025-07-03 19:48:11
800
原创 【经典】Between MDPs and semi-MDPs: A framework for temporal abstraction in reinforcement learning
本文提出了一种在强化学习中实现时间抽象的方法,通过引入"选项"(Options)概念来扩展马尔可夫决策过程(MDP)框架。选项是包含策略、终止条件和启动集的三要素封装,能够表示持续一段时间的行动序列。研究发现,定义在MDP上的选项集合构成半马尔科夫决策过程(SMDP),但最有趣的问题在于底层MDP与SMDP的交互。论文展示了三个关键应用:通过中断选项改进规划效果,开发从执行片段学习选项的新方法,以及利用子目标优化选项。这些成果在不依赖特定状态抽象或层次结构的前提下,为强化学习提供了更灵活
2025-06-27 04:08:21
847
原创 【一】零基础--分层强化学习概览
S:状态集合。A:动作集合。P:状态转移概率,表示从状态 s 执行动作 a 转移到状态 s′ 的概率。T:动作的停留时间分布,表示动作持续的时间步数。R:奖励函数,表示在状态 s 执行动作 a 获得的即时奖励。
2025-06-14 22:29:04
1123
原创 DQN和DDQN(进阶版)
Q表格、Q网络与策略函数Q表格是有限的离散的,而神经网络可以是无限的。对于动作有限的智能体来说,使用Q网络获得当下状态的对于每个动作的状态-动作值。那么arg maxQas;θabest,那么我们对当前的状态s,会有一个最佳的选择abesta_{best}abest,选择的依据是策略θ\thetaθ. 我们的目标是获得最优的策略θ∗\theta^*θ∗.即优化θ\thetaθ。
2025-06-01 22:00:09
1180
原创 【精】A user-based bike rebalancing strategy for free-floating bike sharing systems: A bidding model
2️⃣第二,当仅分配少量激励预算时,BIM能够以较快的速度收敛到最优激励价格,因此,只要用户能够以真实成本合理出价,BIM就被大力推荐。政策制定者和BSS从业人员应特别注意采取有效措施,如(i)引入区块链,(ii)将用户的个人信息与其投标价格隔离,以及(iii)共享成功交易的投标价格,以提高信息透明度(但是,受隐私保护)。**在此,我们考虑用户的不合理性,并分析其对BIM的有效性的影响。基于未经证实的投标价格(高于用户的真实距离成本),运营商高估了用户的距离成本,并相应地提供了高于用户预期的激励价格。
2025-05-28 13:46:01
1056
原创 【精】Planning bikeway network for urban commute based on mobile phone data: A case study of Beijing
近年来,在共享单车项目的推动下,对城市自行车的需求迅速增加。作为鼓励骑自行车的有效方式之一,自行车道已被公认为支持骑自行车通勤。因此,合理规划自行车道和建设自行车道网络对于改善城市地区的自行车通勤至关重要。以北京为例,提出了基于手机数据的自行车道选择和优化分析框架。通过挖掘手机地理信息来分析自行车需求,然后应用TOPSIS方法评估自行车道的可用道路空间。最后,本研究采用最低成本路径方法选择自行车道路线,然后分别根据自行车道建设的两个场景的自行车潜力和交通量进行分类。
2025-05-28 13:42:57
698
原创 【论】Interblock Flow Prediction With Relation Graph Network for Cold Start on Bike-Sharing System
随着物联网技术( IoT technology)的成熟和共享经济在全球范围内的扩展,共享单车系统( bike-sharing system)(BSS在过去十年中迅速传播。在新城市引入BSS时,运营商经常面临许多挑战:例如,优化车站选址(物理或电动)、建设自行车道以及制定自行车初始分配和重新平衡的策略。这些挑战需要在部署BSS之前进行准确的区块间流量预测。本文从城市道路网中推导区块,并根据POI的分布和类型提取区块的特征。然后,可以根据开始/结束块(start/end block)和。
2025-05-28 13:09:30
731
原创 【 ai-safety-gridworlds】介绍和使用(未完)
我们实现了一种自动策略来解决这些问题,比如当两个智能体同时试图移动到同一个位置时候,或者多个智能体同时争夺有限的资源的时候,系统会自动介入处理,而不是需要你在每个具体的环境代码里都去写冲突解决逻辑。我们可以选择将某些智能体的内部指标,比如健康度、满意度等,设置为公开状态,让其他智能体能够观察到这些信息,这有助于建立更复杂的社交关系和协作策略。比如,对于一个既要生存又要积累财富的智能体,它的奖励向量可能有两个维度:一个是生存值,另一个是财富值。优点是直观,缺点是基于梯度的算法,可能不太方便处理向量奖励。
2025-05-28 10:03:01
1042
原创 【未】Dynamic Rebalancing Problems for Bike-Sharing Systems: Mixed-Integer Programming Reinforcement
本文探讨了共享单车系统的动态再平衡问题,提出混合整数规划(MIP)和强化学习(RL)两种方法。MIP通过离散时间建模实现多周期优化调度,但存在计算滞后问题;RL则采用连续时间框架的MDP模型,能实时响应需求变化。研究对比了两种RL决策策略(同步与分离)的性能表现,结果表明RL方法在动态适应性、决策效率和用户体验方面优于传统MIP,能有效降低因车辆调度不及时导致的用户需求损失。通过理论分析和实验验证,为共享单车系统的智能调度提供了新的解决方案。
2025-05-28 10:00:17
668
原创 【未】Multi-Platform dynamic game and operation of hybrid Bike-Sharing systems based on reinforcement
本文提出一种基于强化学习的混合共享单车系统多平台动态博弈与运营优化方法。针对竞争环境下传统自行车与电动自行车混合运营的复杂问题,研究构建了双平台马尔可夫决策过程框架,将博弈论与强化学习相结合,通过改进的嵌套Logit模型刻画用户选择行为,并开发了定制化的双重决斗深度Q网络算法进行求解。基于深圳真实数据的实验表明,该方法能实现平台利润与市场份额的双提升,为混合共享单车系统的动态定价和车辆调度提供了有效的解决方案。研究成果对多平台竞争环境下的共享出行系统运营具有重要指导意义。
2025-05-28 09:58:29
733
原创 【代码】自制网格世界
本文介绍了一个网格环境类MapEnv的设计与实现,主要包括地图初始化和执行动作两大核心功能模块。在地图初始化部分,通过构造器init和__init__map方法控制地图生成流程,提供随机生成(随机墙、起点、奖励点)和固定配置两种模式,并包含路径连通性验证(BFS算法)和障碍物检测等关键功能。执行动作部分实现智能体的移动、拾取等交互逻辑,支持局部视野观测。该环境采用双矩阵结构表示水平和垂直墙,支持三种地图生成模式:完全固定、部分随机和完全随机,为智能体训练提供灵活的测试场景。
2025-05-28 09:44:13
410
原创 【精未】A data-driven dynamic repositioning model in bicycle-sharing systems
新一代共享单车是一种 O2O(线上到线下)平台服务,使用户能够通过智能手机应用程序访问自行车。本文提出了一种具有预测需求的动态重新定位模型,其中重新定位时间间隔是固定的。引入了数据驱动的神经网络 (NN) 方法来预测自行车共享需求。定义每个时间间隔的重新定位目标函数,以同时最小化作员成本和惩罚成本。除了静态重新定位问题中的正常约束外,还考虑了流量守恒、库存平衡和旅行时间约束。
2025-05-16 18:21:21
892
原创 【GNN笔记】Signed Graph Convolutional Network(12)【未完】
平衡理论就是“我朋友的朋友是我的朋友”,“我朋友的敌人是我的敌人”,“我敌人的敌人是朋友”平衡路径表示为包含偶数个负连接的路径;不平衡路径也表示为包含奇数个负连接的路径平衡三角形和不平衡三角形节点的平衡邻居和不平衡邻居根据两个节点如果由平衡路径链接,则是平衡邻居,否则是不平衡邻居。且k-阶邻居是可以通过迭代方式获得。
2025-05-16 18:03:19
341
1
原创 【未完】【GNN笔记】EvolveGCN:Evolving Graph Convolutional Networks for Dynamics Graphs
Q:在前面提到,EvolveGCN在每一层将GNN和RNN结合在同一层。A:普通GCN的公式如下图所示,EvolveGCN的公式与之相同。当下默认args.model=‘egcn_o’,查看其他变量。如果节点信息⽐较少,-O效果好,因为他更关系图结构的变化。如果节点有信息,-H效果要好,因为考虑了节点的特征变化。,因此会存在数据维度不同的情况,因此设定了一个。采用快照的方法构图,同DySAT一样。Q:同一时刻数据在不同层如何计算?Q:在同一层不同时刻如何计算?第一次初始化,如下图。整体过程:如下图所示。
2025-05-16 18:02:46
908
1
原创 【未】[启发式算法]含初始解要求的有:TS, GA, SA, DPSO
禁忌搜索算法(TS)搞懂什么是禁忌搜索算法Tabu Search【附应用举例】
2025-05-16 17:59:11
1003
1
原创 【展望好】Creating Multi-Level Skill Hierarchies in Reinforcement Learning
为每个层级 i,定义技能用于在相邻簇。
2025-05-04 11:38:08
656
原创 【BRP】Two-stage stochastic approximation for dynamic rebalancing of shared mobility systems
泊松到达过程是连续时间、离散状态的随机过程,记为。
2025-04-29 21:24:00
818
原创 [No]【O-D矩阵】A Bicycle Origin-Destination Matrix Estimation Based on a Two-Stage Procedure
核心问题:如何更有效的进行自行车OD矩阵的估计?
2025-04-19 23:55:43
650
原创 【排队论】Probabilistic Forecasts of Bike-Sharing Systems for Journey Planning
用户更关心"是否有自行车可用",而非具体数量。阈值策略:用户根据预测概率p和阈值p∗p^*p∗、决定是否前往站点。评分规则设计:基于用户效用函数(衡量用户满意度),设计新的评分规则,用户有一个效用函数,用于衡量用户满意度。比如,成功借到车的效用高于没借到车的效用,用户会根据预测的概率p和一个自己设定的阈值p∗p^*p∗来决定是否去站点。如果预测概率大于等于阈值,就去;否则不去。评分规则是根据用户最终的决策结果和实际发生的情况来打分。
2025-04-19 17:14:05
653
原创 【gym】实验taxi-v3案例(三)
中,Q表格.shape=(500,6).假设state=67,其decode=[0,3,1,3],含义为vehicle在index(0,3)的位置,乘客的位置为1(Green),目的地为3(Blue).见图a.最优的路线之一见图b.出租车开到乘客的位置,接乘客,开到乘客的目的地(四个指定位置中的另一个),然后下车。当乘客在目的地的位置的时候(乘客位置=目的地位置,供4种),出租车的随机位置共100个,所以要删除4*25=100个没必要的状态。智能体需要根据当前状态选择适当的动作,以最大化其获得的奖励。
2025-02-20 17:53:08
1101
原创 【问】同一个案例中,强学为什么优于启发式算法呢?
强化学习并不一定在所有情况下都比启发式算法(如基因遗传算法)更优秀,它们各有优势,适用于不同的场景。
2025-02-12 23:15:06
332
原创 【gym】理解gym并测试gym小游戏CartPole (一)
同时,在上述行为的作用下,推车速度降低或提高的速度并不是固定的,而是取决于杆子所指向的方向(因为杆子重心的改变使得移动推车所需的能量改变)。为了录制 Gym 环境的视频,你可以使用 Gymnasium 库,这是 Gym 的一个后续项目,旨在提供更新和更好的功能。” ,这里“render_mode="rgb_array”把env.render该为数组模式,所以,打印image是一个数组。,为什么现在会报错?原因在于,调用gym的时候会使用一个虚拟环境,比如我的虚拟环境是。的时候会默认运行该文件中的代码。
2024-12-22 02:07:15
1244
原创 [DCVRP] 基于复杂网络的k-opt算法解空间表示(五)
如果想提高算法,了解解空间结构是一个很好的突破口。使用节点表示可行解,边表示可行解之间的领域关系。然后通过计算法复杂网络的基本指标分析算法解空间结构,其目的是得出优秀算法的解空间结构所呈现的特征,基于分析结论设计一个算法使其解空间呈现这种特征,最终使设计的算法性能具有竞争力。这思路太牛逼了吧👍好的算法操作规则对应的复杂网络具有什么样的结构特征?或者说通过分析算法操作规则对应的复杂网络结构特征是否可以评估该算法的求解性能?
2024-09-13 13:52:48
727
原创 【DCVRP】元启发式算法进一步优化(四)
为什么加入元启发式算法?DCVRP-IMGR的求解质量可以快速的达到10%之内,但在DCVRP_IMGR生成方案完成后至下一个动态事件发生之间存在一段时间,当动态事件发生的非常频繁,这段时间可能会非常短暂,然而动态事件发生得不是太频繁或者存在2个动态事件时间较长的情况下(这在实际配送中是比较常见的),这段时间的长度可能就足够采用,以。改进算法的主要指标是什么?在求解大规模动态车辆路径问题,对算法的求解速度要求非常高。
2024-08-31 13:56:47
952
原创 【D-DCVRP】求解DCVRP改进贪婪算法(三)
令小于分割点cutval的区域为二叉树节点loson,大于分割点cutval的区域为二叉树节点hison,确定区域中点在数组perm[]中序号范围lopt和hipt;Held-Karp 模型不会改变DCVRP问题的最优解,但会改变DCVRP-GR的求解结果。Stepl:确定分割对象区域,计算区域内的点数量并判断是否大于cut-of,如果“是”, 令bucket=1,继续Step2,否则,bucket=0停止分割;要降低DCVRP-GR的复杂度的挂念是提高从距离矩阵中提取当前最短边的效率。
2024-08-25 21:22:04
789
原创 [VRP]DCVRP和D-DCVRP模型(二)
求解速度主要与算法的复杂度密切相关,在实际计算中一般来说复杂度越高速度会越慢,但具有相同复杂度的不同算法在求解相同算例的速度可能会有较大的差异,因为算法复杂度仅由计算量的最高次方确定,比如计算量为0(100n²)和0(n²)的算法复杂度均为0(n²)。但是当前的算法基于静态VRP开发得到,因为静态VRP假设事先知道所有的配送件信息,也就是假设算法具有充足的求解时间,这也导致开发的算法求解质量越来越好**,但求解速度和算法规则的复杂度却不够理想。顾客1,2,4,6,是已服务的顾客,不在待服务的集合中。
2024-08-21 16:15:52
899
原创 【VRP】类型总结和DVRP分析(一)
💡原因二:开放车辆路径问题的特点是配送车辆完成任务后不一定回到配送中心,所以车辆的计划路径可能是一条路径,而不是一个简单圈。当前正在执行任务的车辆已离开配送中心,且被要求配送完成后回到配送中心,所以此时这些车辆的配送计划路线必定为一条路径,与HOVRP无异。上述4中情况均有正在执行任务的车辆,因此会等价于求解同一个问题,即多车型的开放车辆路径问题(Heterogeneous Fleet Open VRP,中的元素确定为该集合中已服务完成的顾客,未服务顾客提出集合,并且该集合不再更新。
2024-08-07 19:41:47
1352
原创 【GA】deap之个体和种群概览(一)
1. 导入库import random #随机库from scipy.stats import bernoulli #导入伯努利分布函数# 2.定义适应度,单目标,求最大值。#定义问题creator.create('FitnessMax',base.Fitness,weights=(1.0,))#单变量,求最大值# 3. 定义个体## 3.1 与适应度绑定,继承list类。
2024-05-07 19:44:56
974
原创 [精]A hybrid priority-based genetic algorithm for simultaneous pickup and delivery problems in revers
一种基于优先级的混合遗传算法,用于解决具有时间窗口和多个决策者的逆向物流中同时提货和交付问题该文提出了一种基于混合优先级的嵌套遗传算法,该算法具有模糊逻辑控制器和模糊随机仿真(hybrid priority-based nested genetic algorithm with fuzzy logic controller and fuzzy random simulation [hpn-GA with FLC-FRS])来解决车辆路径问题的变体。为了满足实际逆向物流中包含的所有复杂限制,开发了一种新的数学
2024-03-28 18:26:21
1327
原创 【析】一类动态车辆路径问题模型和两阶段算法
针对一类,分析对传统车辆路径问题的本质影响,将动态车辆路径问题(Dynamic Vehicle Routing Problem,转化为多个静态的多车型开放式车辆路径问题(The Fleet Size and Mixed Open Vehicle Routing Problem,,并进一步转化为多个带能力约束车辆路径问题(Capacitated Vehicle Routing Problem,,基于CVRP模型建立了DVRP模型;然后,在分析DVRP问题特点基础上,提出,1️⃣。
2024-03-15 21:33:50
2918
原创 【析博】带时间窗约束的车辆路径多目标优化
车辆路径问题(Vehicle Routing Problem,VRP)旨在通过合理规划行驶路径来优化运输成本,对于降低物流运营成本具有重要的应用价值。带时间窗约束的车辆路径问题(Vehicle Routing Problem with Time Windows,VRPTW)是在 VRP 问题基础上引入了时间窗口约束,因其更符合当前实际物流配送系统的运行情况和应用场景而成为 VRP 问题研究的热点。本文基于VRPTW模型的基本构成要素:配送网络、路径和节点,面向。
2024-03-13 16:22:59
3529
Meta Graph Transformer: MGT
2022-06-24
tensorboard,summarywriter
2022-07-23
【torch】在函数内部运行的时候与取函数的内部运算测试的时候,为啥结果不一样
2022-03-18
DDPG中经过model获得的action的值不合适的问题!
2022-01-30
pytorch中想要加入这样一个神经网络,torch.nn
2021-11-16
latex中的文献插入编译后显示问号的问题,
2021-11-08
论文投稿中,有一个ORCID,请问如何注册这个?
2021-11-05
强化学习中,对于连续状态空间和高维动作空间,采用什么方法?
2021-07-22
python中数列或者说元组 的拆包问题。
2021-10-15
spyder中的tensorflow无法正常启动问题!
2021-10-23
强化学习中,随机梯度下降的方法,如下图所示,为什么如此更新呢?
2021-10-22
问 dataframe 在最后一行得下一行 进行添加数据得好方法?
2021-10-14
python中的class类中的函数定义与调用的问题。想知道函数的内部调用是怎么样的,self.new_sum()?or new_sum()?,再或者与函数的变量self有关?再或者我的实例化方法有误
2021-10-15
在 dataframe中随机抽取符合条件得一行数据,怎么办?举例如下。
2021-10-14
env.reset() 语义是什么?(env是一个虚拟环境)
2021-07-21
dataframe的数据.loc[0]后变成什么格式的数据?
2021-10-11
请问哪位读者看了以下两篇文章啊,探讨交流啊
2021-08-09
TA创建的收藏夹 TA关注的收藏夹
TA关注的人