学习算法的运行时间与线性预测器深度解析
学习时间复杂度与相关问题
在学习算法领域,运行时间是一个至关重要的考量因素。它通常被分析为学习问题不同参数的函数,这些参数包括假设类的大小、准确性度量、置信度度量以及定义域集合的大小。
我们先来看陷门函数族$F_n$。这是一个定义在${0,1}^n$上的函数族,可通过多项式时间算法计算。对于其对应的反函数类$H_n^F = { f^{-1} : f \in F_n}$,由于该类中的每个函数都能通过大小为$n$的多项式的密钥进行求逆,所以$H_n^F$可以由这些密钥参数化,且其大小至多为$2^{p(n)}$,样本复杂度为$n$的多项式。然而,这个类不存在高效的学习器。假设存在这样的学习器$L$,通过在${0,1}^n$中均匀随机采样多项式数量的字符串,并对它们计算$f$,可以生成标记训练样本对$( f (x),x)$。学习器$L$应该能够据此找出$f^{-1}$的$(\epsilon,\delta)$近似,但这会违背$f$的单向性。
在一些情况下,经验风险最小化(ERM)规则可以高效实现。例如,在可实现性假设下,我们为布尔合取类和轴对齐矩形类导出了求解ERM问题的高效算法。但在不可知情况下,为这些类实现ERM是NP难的。从统计角度看,可实现和不可知情况没有差异,一个类在这两种情况下可学习当且仅当其VC维有限。然而,从计算角度看,差异巨大。以3项DNF类为例,即使在可实现情况下实现ERM也很困难,但该类可以通过另一种算法高效学习。
实现几个自然假设类的ERM规则的困难促使了替代学习方法的发展。
练习题解析
- 区间类的ERM规则实现
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



