基于自适应用户激励的共享单车系统再平衡的AI方法
1. 调整源和目的地激励的绕行距离比例
为了优化共享单车系统的再平衡,我们可以调整源和目的地激励的绕行距离比例。具体做法是在环境模型中为用户添加最大绕行约束。设 $l$ 表示用户能够接受的最大绕行距离,包括源绕行和目的地绕行。在实际应用该方案时,$l$ 的值可以通过用户调查获取。
我们将 $l$ 分为两部分 $l_s$ 和 $l_d$,分别对应最大源绕行和最大目的地绕行。设 $a$ 为 $l_s$ 和 $l_d$ 之间的调整参数。根据定义,在源激励下的最大绕行距离为 $l_s = al$,在目的地激励下的绕行距离为 $l_d = (1 - a)l$。
为了与环境模型保持一致,我们假设如果用户的绕行距离超过限制,或者无法从绕行中获利,用户将拒绝绕行。通过这种设置,我们试图在所有时间段内限制每个区域的源和目的地激励。
预算划分严格限制了源和目的地激励的预算,而绕行距离划分则在估计时限制了源和目的地激励价格。这两种激励在不同区域都是自适应的,并且激励价格之和不能超过相应的预算。预算划分应用于马尔可夫决策过程(MDP)的初始状态,而绕行距离划分应用于环境,超过限制的激励对方案没有益处。
2. 混合激励方案的特性
混合激励方案除了具有自适应调整的特性外,还能将一个用户的长绕行距离分解为不同用户的两个短绕行距离。例如,假设有两个用户分别在时间槽 0 和 1 到达,他们的起点分别为 $u_1$ 和 $u_2$,终点分别为 $u_1’$ 和 $u_2’$。在初始时间槽 $t = 0$ 时,有一辆自行车位于 $R$ 处。
如果只允许源激励,用户 $u_1$ 从 $R
超级会员免费看
订阅专栏 解锁全文
36

被折叠的 条评论
为什么被折叠?



