12、博弈论、在线学习与提升算法

博弈论、在线学习与提升算法

在分析提升算法的训练和泛化误差方法之后,我们将探讨提升算法的其他理解和解释方式。首先,我们会看到提升算法与博弈论之间存在着深刻而美妙的联系。

1. 博弈论基础

我们先回顾一下基本的博弈论,主要研究两人的标准型博弈。这种博弈由一个矩阵 $M$ 定义,有两个参与者:行参与者和列参与者。行参与者选择矩阵的一行 $i$,同时列参与者选择一列 $j$,所选的矩阵元素 $M(i, j)$ 就是行参与者的损失。

例如,儿童游戏“石头 - 剪刀 - 布”的损失矩阵如下:
| | 石头 | 布 | 剪刀 |
| — | — | — | — |
| 石头 | 1/2 | 1 | 0 |
| 布 | 0 | 1/2 | 1 |
| 剪刀 | 1 | 0 | 1/2 |

如果行参与者出布,列参与者出剪刀,那么行参与者就输了,损失为 1。行参与者的目标是最小化损失,而列参与者常以最大化行参与者的损失为目标,此时该博弈为零和博弈,因为两个参与者的损失之和始终为零。

1.1 随机策略

通常,参与者的选择可以是随机的。行参与者选择矩阵行的分布 $P$,列参与者选择列的分布 $Q$。这两个分布决定了行或列的随机选择,行参与者的期望损失为:
$M(P, Q) = \sum_{i,j} P(i)M(i, j)Q(j) = P^⊤MQ$

我们有时将 $P$ 和 $Q$ 视为列向量,为方便表示,直接称 $M(P, Q)$ 为损失。如果行参与者选择分布 $P$,而列参与者选择单列 $j$,则损失为 $\sum_{i} P(i)M(i, j)$,记为 $M

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值