
这篇文章提出使用强化学习框架来生成出租车的出行轨迹。
1.Method
1.1 强化学习框架
作者选择ϵ−greedy\epsilon -greedyϵ−greedy算法来作为框架。实际应用中,将Agent视为一个出租车,将费用减去油耗看做是reward,将每个时刻所在位置的id看做是状态。
一个动作被选择的概率为:

1.2 reward函数
reward函数由费用和油耗两部分组成,
其中,费用又分为三个部分,
- 基本费用
- 额外费用
- 等待费用

油耗计算方面,假设汽油1美元每升,油耗为10英里每升,

根据前一时刻计算当前的reward:
在到达目的地之后,计算累积时间S,单位时间收益RPS,访问数量C。
RPS:

在选择动作时,比较每个目的地的期望收益,(很不解为什么又加上RgR_gRg)。

1.3 运行过程
首先,为agent随机选择一个起始点和目的地,到达目的地后,根据乘客概率分布决定是否携带下一位乘客,当选择一位乘客后,乘客的目的地作为下一个要去的地方。当没有乘客时,使用ϵ−greedy\epsilon -greedyϵ−greedy算法来选择下一个要去的地方,如果选择探索,就从所有的位置随机选择一个,如果选择开发就选择具有最大期望回报的位置选择一个。
2、实验
2.1 结果
模型学习到的各个区域的期望奖励,和原始数据的人口分布比较


每5000时间步获得的奖励,

不同ϵ\epsilonϵ的累积奖励,

累积奖励,

3、结论
本文使用ϵ−greedy\epsilon-greedyϵ−greedy算法来建模出租车移动行为生成模型。未来会研究人类日常出行轨迹的生成。
本文介绍了一种基于强化学习的出租车出行轨迹生成方法。通过ϵ-greedy算法模拟出租车的移动行为,利用费用减去油耗作为reward函数,实现智能路径选择。实验表明,该方法能够有效学习到各区域的期望奖励,并与人口分布数据进行对比验证。
3598

被折叠的 条评论
为什么被折叠?



