七月算法强化学习 第三课 学习笔记

Unknown Environment MDP Control

基本思路:广义策略迭代(策略评估+策略改进)


如何保证每个状态行为对(Q,a)都可以被访问到?
确保历经每个状态行为对, π(a|s) > 0 for all a, s
每次迭代确保 π’≥π(回顾policy ordering)

实时在线决策:
1)ExploitaAon:基于之前所有的信息做出最优选择&收集更多信息
2)最好的长远策略可能需要牺牲短期利益
3)只有收集到足够多的数据才能作出全局最好决策


Ø ExploraAon and ExploitaAon

1. MulA-Armed Bandit Problem


2. ε-greedy strategy

Ø On Policy / Off Policy Learning

On Policy Learning: 探索策略与评估策略为同一策略
1)“Learn on the job”
2)Learn about policy π from experience sampled from π
Off Policy Learning:探索策略与评估策略为不同策略
1)“Look over someone's shoulder”
2)Learn about policy π from experience sampled from μ
3)Learn from observing humans or other agents
4)Re-use experience generated from old policies π1, π2, …, πt-1
5)Learn about opAmal policy while following exploratory policy
6)Learn about mulAple policies while following one policy

1. Monte Carlo Method

1)On Policy Monte Carlo

2)Off Policy Monte Carlo


2. TD Method: 

1)Sarsa (on policy TD)


 2)Q-Learning (off policy TD)


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值