无反馈情况下对无记忆随机学习者的教学
在教学模型中,目标概念的最优教学时间 $E(c^ , C)$ 是一个非常有趣的属性。计算 $E(c^ , C)$ 的一种方法是为最优教师 $T$ 计算 $E_T(c^*, C)$ 。然而,由于教师数量是不可数的,甚至不清楚是否存在最优教师。
最优教师的存在性
我们基于 Patek 对 USSPPs 中最优“策略”的刻画来推导最优教师的刻画,这表明总是存在最优教师,并且可以检查给定教师是否最优。
首先,引入一些技术符号:
- 考虑教师序列 $(\tilde{T} t) {t\in\mathbb{N}}$ ,如果序列中所有教师都相同,则称为平稳序列。用 $Pr_m(\gamma, \tilde{T})$ 表示学习者从状态 $\gamma\in\Gamma$ 开始,在第 $t = 0, 1, \cdots$ 轮由教师 $\tilde{T} t$ 教学,在 $m$ 轮内达到目标 $c^ $ 的概率。
- 定义两个动态规划算子 $D$ 和 $D_{\tilde{T}}$ ,它们将函数 $G:\Gamma\rightarrow\mathbb{R}$ 映射为相同类型的函数:
- $ D_{\tilde{T}}G = 1 + G(f(\gamma, \tilde{T}(\gamma))) \cdot \sum_{c,d\in\hat{C}} \gamma(c) \cdot p(c, \tilde{T}(\gamma), d)$
- $
超级会员免费看
订阅专栏 解锁全文
785

被折叠的 条评论
为什么被折叠?



