这篇文章提出使用强化学习框架来生成出租车的出行轨迹。
1.Method
1.1 强化学习框架
作者选择
ϵ
−
g
r
e
e
d
y
\epsilon -greedy
ϵ−greedy算法来作为框架。实际应用中,将Agent视为一个出租车,将费用减去油耗看做是reward,将每个时刻所在位置的id看做是状态。
一个动作被选择的概率为:
1.2 reward函数
reward函数由费用和油耗两部分组成,
其中,费用又分为三个部分,
- 基本费用
- 额外费用
- 等待费用
油耗计算方面,假设汽油1美元每升,油耗为10英里每升,
根据前一时刻计算当前的reward:
在到达目的地之后,计算累积时间S,单位时间收益RPS,访问数量C。
RPS:
在选择动作时,比较每个目的地的期望收益,(很不解为什么又加上 R g R_g Rg)。
1.3 运行过程
首先,为agent随机选择一个起始点和目的地,到达目的地后,根据乘客概率分布决定是否携带下一位乘客,当选择一位乘客后,乘客的目的地作为下一个要去的地方。当没有乘客时,使用 ϵ − g r e e d y \epsilon -greedy ϵ−greedy算法来选择下一个要去的地方,如果选择探索,就从所有的位置随机选择一个,如果选择开发就选择具有最大期望回报的位置选择一个。
2、实验
2.1 结果
模型学习到的各个区域的期望奖励,和原始数据的人口分布比较
每5000时间步获得的奖励,
不同
ϵ
\epsilon
ϵ的累积奖励,
累积奖励,
3、结论
本文使用 ϵ − g r e e d y \epsilon-greedy ϵ−greedy算法来建模出租车移动行为生成模型。未来会研究人类日常出行轨迹的生成。