论文解读-使用强化学习来生成轨迹

在这里插入图片描述
这篇文章提出使用强化学习框架来生成出租车的出行轨迹。

1.Method

1.1 强化学习框架

作者选择 ϵ − g r e e d y \epsilon -greedy ϵgreedy算法来作为框架。实际应用中,将Agent视为一个出租车,将费用减去油耗看做是reward,将每个时刻所在位置的id看做是状态。
一个动作被选择的概率为:
在这里插入图片描述

1.2 reward函数

reward函数由费用和油耗两部分组成,
其中,费用又分为三个部分,

  • 基本费用
  • 额外费用
  • 等待费用
    在这里插入图片描述
    油耗计算方面,假设汽油1美元每升,油耗为10英里每升,
    在这里插入图片描述
    根据前一时刻计算当前的reward:
    在这里插入图片描述在到达目的地之后,计算累积时间S,单位时间收益RPS,访问数量C。
    RPS:
    在这里插入图片描述
    在选择动作时,比较每个目的地的期望收益,(很不解为什么又加上 R g R_g Rg)。
    在这里插入图片描述

1.3 运行过程

首先,为agent随机选择一个起始点和目的地,到达目的地后,根据乘客概率分布决定是否携带下一位乘客,当选择一位乘客后,乘客的目的地作为下一个要去的地方。当没有乘客时,使用 ϵ − g r e e d y \epsilon -greedy ϵgreedy算法来选择下一个要去的地方,如果选择探索,就从所有的位置随机选择一个,如果选择开发就选择具有最大期望回报的位置选择一个。

2、实验

2.1 结果

模型学习到的各个区域的期望奖励,和原始数据的人口分布比较
在这里插入图片描述
在这里插入图片描述
每5000时间步获得的奖励,
在这里插入图片描述
不同 ϵ \epsilon ϵ的累积奖励,
在这里插入图片描述
累积奖励,
在这里插入图片描述

3、结论

本文使用 ϵ − g r e e d y \epsilon-greedy ϵgreedy算法来建模出租车移动行为生成模型。未来会研究人类日常出行轨迹的生成。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

cxp_001

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值