41、基于自适应用户激励的共享单车系统再平衡AI方法

基于自适应用户激励的共享单车系统再平衡AI方法

1. 研究背景与贡献

在共享单车系统(BSS)中,训练强化学习智能体存在一定复杂性。为解决这一问题,提出了一种混合激励方案,该方案利用源激励和目的地激励,扩展了仅考虑源激励的强化学习框架。具体贡献如下:
- 提出通过提供源激励和目的地激励来重新平衡BSS,相比仅使用源激励的方案带来额外好处。
- 分析了目的地激励的优势,并提出通过拆分再平衡预算来结合源激励和目的地激励。
- 调整最先进的强化学习框架以确定无桩BSS的目的地激励价格。
- 将方案扩展到有桩BSS,将每个站点的容量添加到强化学习智能体的状态空间中。
- 通过在真实世界数据集上的实验测试混合激励方案的性能。

2. 问题陈述
2.1 概述

提出一种自适应方法来重新平衡无桩BSS。在预算有限的情况下,该方法根据时空上的流量不足/溢出分布,自适应地分配预算以激励用户在源地和/或目的地绕道。目标是最大化系统一天内的整体服务水平,服务水平通过满意用户数量或自行车使用次数来量化。
源激励是鼓励用户在其源地附近区域租车,BSS运营商会提供可用自行车的位置和附近区域自行车的激励价格;目的地激励则是运营商建议用户将自行车归还到目的地附近区域。激励价格由激励方案确定,用户是否接受激励由环境模型模拟,再平衡性能通过服务水平评估。混合激励方案的强化学习框架如图1所示,相关符号说明见表1。

graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-widt
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值