三级多智能体深度强化学习博弈

把“线网-车站-列车”三级实体抽象为三级多智能体深度强化学习博弈(Hierarchical-MADRL-Games,HMADG),并嵌入我们之前定义的“反馈-演化”动力学,实现业务 KPI 双向放大


一、三级博弈抽象与角色定义

表格

复制

层级 智能体角色 主要决策变量 观测空间 关键业务 KPI
L1 线网层 Network-Agent (NA) 全线列车运行图、越站/加开、末班车衔接 全线 OD、大客流预警、故障事件 网络总延误 ∑D、换乘失败率 P_transfer
L2 车站层 Station-Agent (SA) 限流速率、闸机常开/常关、广播等级 站台密度、闸机队列、SA-NA 运行图 站台滞留人数 Q_strand、清客时间 T_clear
L3 列车层 Train-Agent (TA) 牵引/制动曲线、停站时间、跳停决策 车载客流、信号机状态、TA-SA 上下客 列车晚点 d_train、能耗 E_train
  • 博弈顺序:NA 先发布“运行图指令”→SA 根据客流决定限流→TA 在约束下调节停站/速度;每 30 s 滚动一次

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

交通上的硅基思维

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值