强化学习中的环境模拟与决策过程
1. 环境模拟
在工业项目中,真实环境往往是最理想的,但开发真实环境可能成本高昂、危险或过于复杂。因此,可以构建模拟环境,它可以是领域的简化版本(如三维游戏引擎),也可以根据收集的数据进行建模。
假设网站访客并非每次都会点击按钮,且他们更倾向于点击红色按钮而非绿色按钮。例如,假设40%的用户会点击红色按钮,而只有5%的用户会点击绿色按钮,这些数据可以来自先前的实验或已发布的模型。可以利用这些信息创建一个简单的模拟器来测试强化学习(RL)算法,如下所示:
Algorithm 2-2. Website simulator
ENVIRONMENT a, p_a
: The action, a, and its probability, p_a
: r
1 with probability p_a, else 0.
这个模拟器接受一个动作及其概率,并以概率 $p_a$ 输出奖励1。这里提供的奖励为1,也可以根据具体情况返回更合适的数值,如销售的总价值。
2. 运行实验
现在可以进行第一个实验。典型的网站多臂老虎机测试工作流程如下:
1. 用户浏览到网站URL,代理决定显示哪个按钮。
2. 用户查看页面并可能点击按钮。
3. 结果反馈给代理,以便其学习未来应选择的动作。
使用两个伯努利分布实现了算法2 - 2,分别代表两个按钮,红色按钮被选中的概率为40%,绿色按钮为5%。然后实现算法2 - 1,让其自动学习模拟用户更喜欢哪个按钮。
不同的超
超级会员免费看
订阅专栏 解锁全文
1182

被折叠的 条评论
为什么被折叠?



