基于模型的强化学习

2020年北京智源大会——更好的环境模型,更好的强化学习

强化学习中 Model 指的是环境
在这里插入图片描述
\quad 监督学习中,数据分布是一致的 x ∽ D x\backsim\mathcal{D} xD;强化学习数据分布是不一致的 x ∽ D π θ x\backsim\mathcal{D}^{\pi_\theta} xDπθ,数据来源于当前的策略 π θ \pi_\theta πθ,也就是说,当我们的策略发生变化的时候我们的数据也会发生变化。
\quad 强化学习中,我们未来会遇到什么样的数据,完全取决于我们当前的决策是什么样子——很难在历史数据上训练好模型

在这里插入图片描述
\quad 无法从数据集上找到最优的决策 ==》 解决方案:试错

监督学习 依赖 数据集
强化学习 依赖 环境

下棋
\quad =》所有的规则我们都已知,能在计算机中进行大量的采样
\quad =》得到比较好的模型
\quad =》环境是一个我们已经非常清楚地,封闭的环境

在这里插入图片描述
\quad 在真实的环境中很难用,在游戏环境(封闭环境)中,能达到很好的效果。
在这里插入图片描述
我们需要模拟器,模拟器即环境
制造业、工业界 ==》 存在大量模拟器
大部分都是通过人类经验构建,例如,流体动力学
在这里插入图片描述
但是很多场景,在精度上存在不足。
如何在有误差的模拟环境中训练模型??
在这里插入图片描述
对环境做少量的试探,然后刻画环境是什么样子的,然后很快的把经验用起来,来试验这个环境(agent不知道自己手臂有多长)
在环境中运行几个试探就可以调整好模型。大量训练是在模拟器中完成

在这里插入图片描述
星际争霸 ==》 做了个小型的模拟器:
在这里插入图片描述
人工设置的模拟器有什么问题?
在这里插入图片描述
输入输出模型的结构 ==》 监督学习的结构
在这里插入图片描述
收集数据,做监督学习,在数据上把模型还原出来

这种用法有个条件 ==》 机器人在实验室的条件下是可以完全掌控的
也就是,在实验室环境上能收集到大量的他在各种状态上做出控制的决策后,有什么样的响应。(下图前两张图)
在这里插入图片描述
如果无法遍历所有的action呢?(上图第3张图)=》最关键的挑战

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

《Environment Reconstruction with Hidden Confounders for Reinforcement Learning based Recommendation》

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Virtual-Taobao: Virtualizing Real-world Online Retail Environment for Reinforcement Learning

在这里插入图片描述

GAN-SD(GAN-for-Simulating-Distribution) 算法模仿虚拟买家的操作和搜索请求。

虚拟用户有了,但还还没有和环境产生交互。为了让虚拟平台产生交互变成动态环境,研究人员还提出了 MAIL方法(Multi-agent Adversarial Imitation Learning) ,也可以称之为智能体对抗模仿学习法。MAIL同时学习买家规则和平台的规则,训练买家和平台产生更加真实的交互。

不过虚拟的终究是假的,当研究人员发现算法过度拟合虚拟淘宝时,意味着可能在实际情况下表现不佳。对此,研究人员提出了动作规范约束 ***ANC策略(Action Norm Constraint)***,可以减少这种过拟合。

这样,“四位一体”的虚拟淘宝就建成了。

实验结果

思路和模型搭建完毕后,是时候表演真正的技术了。研究人员用下面三个指标衡量实验结果。

总营业额(TT):所售商品的价值。
总成交量(TV):所售商品的数量。
页面采购率(R2P):采购发生时PV(显示页面视图)数量比率。
实验结果显示,通过数亿用户记录构建的虚拟淘宝重建了非常接近真实物理世界的环境。
在这里插入图片描述△ 淘宝和虚拟淘宝间的用户分布情况

淘宝用强化学习优化商品搜索后,总收入能提高2%|论文

△ 淘宝和虚拟淘宝之间的R2P分布情况

研究人员,将一天的历史数据按时间顺序分为12个部分,以模拟R2P随时间变化的过程,结果如下:

淘宝用强化学习优化商品搜索后,总收入能提高2%|论文

△ R2P随时间推移的走势

研究人员用了观察了虚拟淘宝的泛化能力,并且观察用行为克隆法(BC)替代MAIL之后R2P走势。实验证明BC环境中的R2P下降更快。
淘宝用强化学习优化商品搜索后,总收入能提高2%|论文

△ 虚拟淘宝的泛化能力

最后,研究人员将虚拟淘宝(RL + VTaobao)中的RL方法产生的策略与历史数据(SL + Data)上的监督式学习方法进行比较,结果如下:

淘宝用强化学习优化商品搜索后,总收入能提高2%|论文

可以看出,该RL+ VTaobao总是优于SL+Data法。

接下来回到PPT

在这里插入图片描述
在这里插入图片描述
怎么样设计商品能够满足消费者的喜好。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值