13、无反馈情况下对无记忆随机学习者的教学

无反馈情况下对无记忆随机学习者的教学

在教学模型中,目标概念的最优教学时间 $E(c^ , C)$ 是一个非常有趣的属性。计算 $E(c^ , C)$ 的一种方法是为最优教师 $T$ 计算 $E_T(c^*, C)$ 。然而,由于教师数量是不可数的,甚至不清楚是否存在最优教师。

最优教师的存在性

我们基于 Patek 对 USSPPs 中最优“策略”的刻画来推导最优教师的刻画,这表明总是存在最优教师,并且可以检查给定教师是否最优。

首先,引入一些技术符号:
- 考虑教师序列 $(\tilde{T} t) {t\in\mathbb{N}}$ ,如果序列中所有教师都相同,则称为平稳序列。用 $Pr_m(\gamma, \tilde{T})$ 表示学习者从状态 $\gamma\in\Gamma$ 开始,在第 $t = 0, 1, \cdots$ 轮由教师 $\tilde{T} t$ 教学,在 $m$ 轮内达到目标 $c^ $ 的概率。
- 定义两个动态规划算子 $D$ 和 $D_{\tilde{T}}$ ,它们将函数 $G:\Gamma\rightarrow\mathbb{R}$ 映射为相同类型的函数:
- $ D_{\tilde{T}}G = 1 + G(f(\gamma, \tilde{T}(\gamma))) \cdot \sum_{c,d\in\hat{C}} \gamma(c) \cdot p(c, \tilde{T}(\gamma), d)$
- $

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值