[課程筆記] 機器學習2021(李弘毅) L29.概述增強式學習(一)

原创已于 2022-03-01 22:06:33 修改 · 3.8k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2022-03-01 21:36:44 首次发布

線上課程专栏收录该内容

7 篇文章

订阅专栏

这篇博客介绍了强化学习的基本原理，包括寻找最佳函数的过程、通过与环境互动优化策略。以视频游戏和围棋为例阐述了强化学习的应用，并详细解释了机器学习的简单步骤：定义未知函数、设定损失函数及优化目标。Policy Gradient作为强化学习的一种方法，讨论了如何通过调整策略网络来控制行为，以及如何利用交叉熵损失来指导模型学习。

部署运行你感兴趣的模型镜像

目录

A. What is RL ?

1. Machine learning ~ Looking for a Function

2. Example: Playing Video Game

3. Example: Learning to play Go

4. Machine Learning is so Simple

Step 1. Function with unknown

Step 2. Define loss

Step 3. Optimization

B. Policy Gradient

A. What is RL ?

1. Machine learning ~ Looking for a Function

強化學習與一般機器學習相同，都是想找到一個最佳的函數
整個過程:
- Actor 從環境得到 observation
- Actor 決定根據 observation，採取 Action = f(observation)
- Action 影響了環境，使環境給予 Actor 對應的 reward
整個學習的過程，是希望能找到一個 policy，其在與環境互動下能得到最大的總獎勵

2. Example: Playing Video Game

以 space invader 為例:
- 玩遊戲的機器人(Actor)，從遊戲的畫面取得當前狀態 (observation) 後，會根據這個狀態做出操作 (action) 影響遊戲 (environment) 狀態，而遊戲也會給予相對應的獎勵 (reward)

3. Example: Learning to play Go

以下圍棋為例
- 下棋的機器人(Actor)，從棋盤盤勢取得當前狀態 (observation) 後，會根據這個狀態做出下一步 (action) 影響盤勢 (environment)
- 與前面例子不同的是，每步棋的獎勵通常為 0，只在最終輸/贏時才得到相對應的獎勵 (reward)

4. Machine Learning is so Simple

Step 1. Function with unknown

希望找到一個函數 (policy network)，能根據輸入的遊戲觀察數據，輸出每種操作的機率分布

Step 2. Define loss

機器觀察畫面→產生操作→獲得獎勵，這樣的循環不斷重複著
直到遊戲結束，整個過程稱為一個 episode
機器的目標是在 episode 中，最大化獲得的獎勵

Step 3. Optimization

每個 episode 中間過程的所有 s (observation) 與 a (action)，會構成 trajectory
整個最佳化的目標，是要最大化 trajectory 所得到的總獎勵
其中 a 與 s 都具有隨機性 (因為 action 是根據機率分布取樣得到，環境的狀態也具有隨機性)
強化學習的難點之一，在於如何最佳化函數

B. Policy Gradient

1. How to control your actor

將 s 輸入 Actor 之後，會得到行為 a 的機率分布
透過我們希望 Actor 做的行為 $\hat{a}$ ，與 Actor 實際輸出的行為 a 機率分布，就能計算交叉熵 e
想利用交叉熵損失來教導 actor 要/不要做某些行為，我們可以這樣做 :
- 希望模型看到 s 時，輸出 $\hat{a}$ ，則令損失 L = e 即可
- 希望模型看到 s 時，不要輸出 $\hat{a}$ ，則令損失 L = -e 即可
- 希望模型看到 s 時，輸出 $\hat{a}$ ；看到 s' 時，不要輸出 $\hat{a}'$ ，則令損失 $L = e_1 - e_2$ 即可
進階一點的話，也可以考慮每個 s, a 的重要性，這時需要把 $e_n$ 再乘上重要性 $A_n$

參考

李弘毅老師 -【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (一)

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成

Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型，相比 3.0 版本，它提升了图像质量、运行速度和硬件效率

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。