1、在本题中,我们研究布尔合取的假设类,定义如下。实例空间为X = {0,1}^d,标签集为Y = {0,1}。变量x1, …, xd上的文字是一个简单的布尔函数,形式为f(x) = xi(其中i∈[d])或f(x) = 1 - xi(其中i∈[d]),我们用符号¯xi作为1 - xi的简写。合取是文字的任意乘积,在布尔逻辑中,乘积用∧符号表示。我们考虑d个变量上所有文字合取的假设类。空合取被解释为全正假设。合取x1 ∧¯x1(以及任何包含文字及其否定的合取)是允许的,并被解释为全负假设。我们假设可实现性。证明d个变量上所有合取的假设类是PAC可学习的,并界定其样本复杂度。提出一个实现ERM规则的算法,其运行时间在d · m上是多项式的。
假设类 Hn_C 的大小至多为 3^n + 1,使用 ERM 规则学习 Hn_C 的样本复杂度至多为 d log(3/δ)/ϵ,这证明了该假设类是 PAC 可学习的。
实现 ERM 规则的算法如下:
定义一个 ERM 合取,将不与任何正标签示例矛盾的所有文字包含在假设合取中。
设 v1, ..., vm+ 为输入样本 S 中所有正标签实例,通过对 i ≤ m+ 进行归纳定义一系列假设(或合取)。令 h0 为所有可能文字的合取,即
h0 = x1 ∧ ¬x1 ∧ x2 ∧ ... ∧ xn ∧ ¬xn,
h0 将 X 中所有元素的标签设为 0。
从合取 hi 中删除不被 vi+1 满足的所有文字得到 hi+1,算法输出假设 hm+。
该算法运行时间为 O(mn),在 d 和 m 上是多项式的。
2、假设你被要求设计一个学习算法来预测患者是否会心脏病发作。算法可获取的相关患者特征包括血压(BP)、身体质量指数(BMI)、年龄(A)、身体活动水平(P)和收入(I)。你需要在两种算法中做出选择;第一种算法在由特征BP和BMI构成的二维空间中选取一个轴对齐的矩形,另一种算法在由上述所有特征构成的五维空间中选取一个轴对齐的矩形。1. 解释每种选择的优缺点。2. 解释可用的带标签训练样本数量将如何影响你的选择。
1. 选择在二维空间(BP和BMI)中选取轴对齐矩形的算法:
- 优点:模型简单,计算复杂度低,训练速度快,需要的训练样本较少。
- 缺点:忽略了年龄、身体活动水平和收入等可能影响心脏病发作的重要信息,可能导致预测结果不准确。
选择在五维空间(BP、BMI、A、P、I)中选取轴对齐矩形的算法:
- 优点:考虑了更多的相关特征,能更全面地捕捉患者信息,可能提高预测的准确性。
- 缺点:模型复杂度高,计算量大,训练时间长,需要更多的训练样本,否则容易出现过拟合。
2. 当可用的带标签训练样本数量较少时,选择在二维空间中选取轴对齐矩形的算法更合适,因为简单的模型能在少量样本下避免过拟合,更好地泛化。
当可用的带标签训练样本数量较多时,选择在五维空间中选取轴对齐矩形的算法更合适,因为丰富的样本能支持复杂模型的训练,充分发挥其考虑更多特征的优势,提高预测的准确性。
3、1. 证明在线性预测器类 H = H Sn 上的 ERMH 计算困难。更准确地说,考虑这样一系列问题:维度 n 线性增长,示例数量 m 设为 n 的某个常数倍。已知最大可行子系统(Max FS)问题:给定一个线性不等式组 Ax > b,其中 A ∈ Rm×n 且 b ∈ Rm(即 n 个变量 x = (x1, …, xn) 的 m 个线性不等式组成的系统),找出包含尽可能多不等式且有解的子系统(这样的子系统称为可行子系统),已有研究(Sankaran 1993)表明 Max FS 问题是 NP 难的。证明任何能为任意训练样本 S ∈ (Rn × {+1, -1})m 找到 ERMH Sn 假设的算法,都可用于解决规模为 m, n 的 Max FS 问题。需定义一个将 n 个变量的线性不等式转换为 Rn 中带标签点的映射,以及一个将 Rn 中的向量转换为半空间的映射,使得向量 w 满足不等式 q 当且仅当与 q 对应的带标签点能被与 w 对应的半空间正确分类。由此得出半空间的经验风险最小化问题也是 NP 难的(即如果该问题能在样本大小 m 和欧几里得维度 n 的多项式时间内解决,那么 NP 类中的每个问题都能在多项式时间内解决)。2. 设 X = Rn,Hn k 是 Rn 中 k 个线性半空间的所有交集组成的类。证明对于每个 k ≥ 3,ERM Hn k 计算困难。具体而言,考虑一系列问题,其中 k ≥ 3 为常数,n 线性增长,训练集大小 m 也随 n 线性增长。已知图的 k 着色问题:给定一个图 G = (V, E) 和一个数 k,确定是否存在一个函数 f : V → {1…k},使得对于每条边 (u, v) ∈ E,都有 f (u) ≠ f (v)。
-
要证明在 $ H = H_{Sn} $ 类上的 $ \text{ERM} {H {Sn}} $ 计算困难,可利用归约法。已知 Max FS 问题是 NP 难的,若能证明任何能为训练样本找到 $ \text{ERM} {H {Sn}} $ 假设的算法可用于解决 Max FS 问题,就能证明 $ \text{ERM} {H {Sn}} $ 也是 NP 难的。具体做法是定义两个映射,一个将线性不等式转换为带标签点,另一个将向量转换为半空间,使向量满足不等式等价于对应带标签点被半空间正确分类。若 $ \text{ERM} {H {Sn}} $ 能在多项式时间内解决,那么 NP 类中的每个问题都能在多项式时间内解决,所以 $ \text{ERM} {H {Sn}} $ 是 NP 难的。
-
要证明对于 $ k \geq 3 $,$ \text{ERM} {H {n}^{k}} $ 计算困难,可将图的 $ k $ 着色问题归约到 $ \text{ERM} {H {n}^{k}} $ 问题。若存在能在 $ k $、$ n $ 和样本大小 $ m $ 的多项式时间内解决 $ \text{ERM

最低0.47元/天 解锁文章
430

被折叠的 条评论
为什么被折叠?



