基于模型的强化学习
2020年北京智源大会——更好的环境模型,更好的强化学习
强化学习中 Model 指的是环境
\quad
监督学习中,数据分布是一致的
x
∽
D
x\backsim\mathcal{D}
x∽D;强化学习数据分布是不一致的
x
∽
D
π
θ
x\backsim\mathcal{D}^{\pi_\theta}
x∽Dπθ,数据来源于当前的策略
π
θ
\pi_\theta
πθ,也就是说,当我们的策略发生变化的时候我们的数据也会发生变化。
\quad
强化学习中,我们未来会遇到什么样的数据,完全取决于我们当前的决策是什么样子——很难在历史数据上训练好模型
\quad
无法从数据集上找到最优的决策 ==》 解决方案:试错
监督学习 依赖 数据集
强化学习 依赖 环境
下棋
\quad
=》所有的规则我们都已知,能在计算机中进行大量的采样
\quad
=》得到比较好的模型
\quad
=》环境是一个我们已经非常清楚地,封闭的环境
\quad
在真实的环境中很难用,在游戏环境(封闭环境)中,能达到很好的效果。
我们需要模拟器,模拟器即环境
制造业、工业界 ==》 存在大量模拟器
大部分都是通过人类经验构建,例如,流体动力学
但是很多场景,在精度上存在不足。
如何在有误差的模拟环境中训练模型??
对环境做少量的试探,然后刻画环境是什么样子的,然后很快的把经验用起来,来试验这个环境(agent不知道自己手臂有多长)
在环境中运行几个试探就可以调整好模型。大量训练是在模拟器中完成
星际争霸 ==》 做了个小型的模拟器:
人工设置的模拟器有什么问题?
输入输出模型的结构 ==》 监督学习的结构
收集数据,做监督学习,在数据上把模型还原出来
这种用法有个条件 ==》 机器人在实验室的条件下是可以完全掌控的
也就是,在实验室环境上能收集到大量的他在各种状态上做出控制的决策后,有什么样的响应。(下图前两张图)
如果无法遍历所有的action呢?(上图第3张图)=》最关键的挑战
《Environment Reconstruction with Hidden Confounders for Reinforcement Learning based Recommendation》
Virtual-Taobao: Virtualizing Real-world Online Retail Environment for Reinforcement Learning
GAN-SD(GAN-for-Simulating-Distribution) 算法模仿虚拟买家的操作和搜索请求。
虚拟用户有了,但还还没有和环境产生交互。为了让虚拟平台产生交互变成动态环境,研究人员还提出了 MAIL方法(Multi-agent Adversarial Imitation Learning) ,也可以称之为智能体对抗模仿学习法。MAIL同时学习买家规则和平台的规则,训练买家和平台产生更加真实的交互。
不过虚拟的终究是假的,当研究人员发现算法过度拟合虚拟淘宝时,意味着可能在实际情况下表现不佳。对此,研究人员提出了动作规范约束 ***ANC策略(Action Norm Constraint)***,可以减少这种过拟合。
这样,“四位一体”的虚拟淘宝就建成了。
实验结果
思路和模型搭建完毕后,是时候表演真正的技术了。研究人员用下面三个指标衡量实验结果。
总营业额(TT):所售商品的价值。
总成交量(TV):所售商品的数量。
页面采购率(R2P):采购发生时PV(显示页面视图)数量比率。
实验结果显示,通过数亿用户记录构建的虚拟淘宝重建了非常接近真实物理世界的环境。
△ 淘宝和虚拟淘宝间的用户分布情况
△ 淘宝和虚拟淘宝之间的R2P分布情况
研究人员,将一天的历史数据按时间顺序分为12个部分,以模拟R2P随时间变化的过程,结果如下:
△ R2P随时间推移的走势
研究人员用了观察了虚拟淘宝的泛化能力,并且观察用行为克隆法(BC)替代MAIL之后R2P走势。实验证明BC环境中的R2P下降更快。
△ 虚拟淘宝的泛化能力
最后,研究人员将虚拟淘宝(RL + VTaobao)中的RL方法产生的策略与历史数据(SL + Data)上的监督式学习方法进行比较,结果如下:
可以看出,该RL+ VTaobao总是优于SL+Data法。
接下来回到PPT
怎么样设计商品能够满足消费者的喜好。