前言
记录周志华《机器学习》里的一些概念(尽量包括中英文)方便日后温习。当然,仅知道些概念是远远不够的。
正文
第一章 绪论
- 特征向量 feature vector —— 机器学习的输入往往是向量形式
- 分类 classification —— 预测为离散值的任务
- 回归 regression —— 预测为连续值的任务
- 聚类 clustering
- 有监督学习 supervised learning —— 有标记信息,代表有分类和回归
- 无监督学习 unsupervised learning —— 无标记信息,代表有聚类
- 训练集
- 验证集 validation set —— 根据在验证集的性能进行调参
- 测试集
- 归纳学习 inductive learning —— 从特殊到一般
- 归纳偏好 inductive bias ——不论多么模棱两可的例子,模型都能产生确定的结果。
奥卡姆剃刀 Occam’s razo —— 若有多个假设与观察一致,则选最简单的那个。
第二章 模型评估与选择
- 训练误差 training error = 经验误差 empirical error
- 测试误差 testing error ~= 泛化误差 generalization error
- 过拟合 overfitting
- 欠拟合 underfitting
- 留出法 hold out ——将数据集分为互斥的训练集和测试集
- 分层采样 stratified sampling —— 保留类别比例的采样方式
- p次k折交叉验证 —— 随机地将数据集分为k组,依次选第i组作为测试集,剩下为训练集。重复p次
- 自助法 bootstrapping —— 给定包含 m 个样本的数据集中有放回地抽m个数据作为训练集。这样约有 1 e \frac{1}{e} e1的数据不在训练集中,可作为测试集。
- 真正例 TP 假正例 FP 真反例 TN 假反例 FN
- 查准率 precision —— T P T P + F P \frac{TP}{TP+FP} TP+FPTP
- 查全率 recall —— T P T P + F N \frac{TP}{TP+FN} TP+FNTP
- PR曲线 —— 查准率查全率曲线 单调递减
- 真正例率 TPR —— T P T P + F N \frac{TP}{TP+FN} TP+FNTP
- 假正例率 FPR—— F P T N + F P \frac{FP}{TN+FP} TN+FPFP
- ROC曲线 —— TPR 为纵轴, FPR为横轴 单调递增
- AUC Area Under Curve
- 代价敏感
- 假设检验。测试误差和泛化误差毕竟是不同的,我们需要从测试误差 ϵ ^ \hat{\epsilon} ϵ^推测出泛化误差 ϵ \epsilon ϵ的分布。
- 偏差-方差分解 —— 设在数据x,标记标签
y
D
y_D
yD,真实标签y,在训练集D上学到模型f。则泛化误差有如下公式
E D [ ( f ( x ; D ) − y D ) 2 ] = E D [ ( f ( x ; D ) − f ˉ ( x ) ) 2 ] + ( f ˉ ( x ) − y ) 2 + E D [ ( y D − y ) 2 ] E_D[(f(x;D)-y_D)^2] = E_D[(f(x;D)-\bar{f}(x))^2]+(\bar{f}(x)-y)^2+E_D[(y_D-y)^2] ED[(f(x;D)−yD)2]=ED[(f(x;D)−fˉ(x))2]+(fˉ(x)−y)2+ED[(yD−y)2]
即 泛化误差为偏差、方差、噪声之和。 - 误差-分歧分解 error-ambiguity decomposition: E = E ˉ − A ˉ E=\bar{E}-\bar{A} E=Eˉ−Aˉ,其中 E表示集成学习器的泛化误差, E ˉ \bar{E} Eˉ表示个体学习器泛化误差的加权平均, A ˉ \bar{A} Aˉ表示个体学习器的加权分歧值(可以理解成方差)。式子表明个体学习器准确性越高,多样性越大,则集成越好。
- 多样性度量 diversity measure —— 度量个体分类器的多样性。
第三章 线性模型
- 线性回归 linear regression —— 目标 m i n ∥ y − X ω ∣ 2 2 min \|y-X\omega|_2^2 min∥y−Xω∣22 , 令导数为0,得 ω = ( X T X ) − 1 X T y \omega = (X^TX)^{-1}X^Ty ω=(XTX)−1XTy
- 广义线性模型 generalized linear model —— y = g − 1 ( ω T x + b ) y=g^{-1}(\omega^Tx+b) y=g−1(ωTx+b)
- 线性判别分析 Linear Discriminant Analysis —— 思想:设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离。
- OvO、OvR、MvM —— 二分类模型用于多分类的三种方法
- 纠错输出码 Error Correcting Output Codes
- 类别不平衡 class imbalance
- 阈值移动 threshold-moving
- 欠采样 undersampling = 下采样 downsampling —— 扔掉部分偏多的样本
- 过采样 oversampling = 上采样 upsampling —— 增加偏少的样本,通常用插值的方法
- 多标记学习 multi-label learning
第四章 决策树
- 信息熵 —— E n t ( D ) = − ∑ p k l o g 2 p k Ent(D)=-\sum p_klog_2p_k Ent(D)=−∑pklog2pk,其中 p k p_k pk表示集合 D D D中第 k k k类样本所占的比例。信息熵越小则 D D D纯度越高。
- 信息增益 —— 假设按离散属性
a
a
a划分出
V
V
V个分支节点,第
v
v
v个节点的样本集为
D
v
D^v
Dv,则信息增益
G
a
i
n
(
D
,
a
)
Gain(D,a)
Gain(D,a)定义为:
G a i n ( D , a ) = E n t ( D ) − ∑ ∣ D v ∣ ∣ D ∣ E n t ( D v ) Gain(D,a)=Ent(D)-\sum\frac{|D^v|}{|D|}Ent(D^v) Gain(D,a)=Ent(D)−∑∣D∣∣Dv∣Ent(Dv) - 增益率 —— 信息增益在可取值数目较多的属性较大。为了减少这种影响,引入增益率:
G a i n . r a t i o ( D , a ) = G a i n ( D , a ) I V ( a ) Gain.ratio(D,a) = \frac{Gain(D,a)}{IV(a)} Gain.ratio(D,a)=IV(a)Gain(D,a)
其中 I V ( a ) = E n t ( D V ) = − ∑ ∣ D v ∣ ∣ D ∣ l o g 2 ∣ D v ∣ ∣ D ∣ IV(a)=Ent(DV)=-\sum\frac{|D^v|}{|D|}log_2{\frac{|D^v|}{|D|}} IV(a)=Ent(DV)=−∑∣D∣∣Dv∣log2∣D∣∣Dv∣表示 D D D若按属性 a a a来分类的信息熵。 - 基尼指数 —— 同样表示
D
D
D的纯度,基尼值定义为:
G i n i ( D ) = 1 − ∑ p k 2 Gini(D) = 1- \sum p_k^2 Gini(D)=1−∑pk2
反映了从 D D D随机抽取两个样本,其类别标记不一致的概率。 - 预剪枝 —— 在决策树生成过程中,对每个节点划分前先进行估计,若当前节点的划分不能带来泛化性能提升(用验证集测试),则停止划分。
- 后剪枝 —— 从一颗完整的决策树自底向上对非叶节点考察,若能替换成带来泛化性能提升的叶节点则替换。
- 二分法 bi-partition ——对于连续值,确定一点 t t t使信息增益最大,从而使原数据集 D D D分为两类. 与离散值不同,连续值的属性还可以作为后代节点的划分属性。
- 多变量决策树 multivariate decision tree —— 对于连续值属性来讲,传荣的二分类决策树的决策边界平行于特征轴。这显然难以近似真实的分类边界。可将每个非叶节点换成形如 ∑ ω i a i \sum \omega_i a_i ∑ωiai的线性分类器。
第五章 神经网络
- M-P神经元模型 —— 单个神经元,形如
y = f ( ∑ ω i x i − θ ) y=f(\sum \omega_i x_i - \theta) y=f(∑ωixi−θ) - 感知机 perceptron —— 单层神经网络。关于神经网络的层数,统计方法不一,有的仅不算输入层,有的既不算输入层也不算输出层。为了统一,这里神经网络的层数算上隐含层、输出层。
- 多层前馈神经网络 multi-layer feedforward neural networks —— 普通的多层全连接网络。
- 误差逆传播 error backpropagation —— 简称BP,主要利用求导的链式法则。
- 早停 early stopping —— 为了防止过拟合,训练时若训练集误差降低但验证集误差升高,则停止训练。
- 正则化 regularization —— 在误差目标函数中增加一个用于描述网络复杂度的部分。
- 径向基函数网络 Radial Basis Function network —— 简称RBF网络,是一种单隐藏层前馈神经网络。可表示为:
ψ ( x ) = ∑ ω i ρ ( x , c i ) \psi(\mathbf{x})=\sum \omega_i \rho(\mathbf{x},\mathbf{c_i}) ψ(x)=∑ωiρ(x,ci)
其中 ρ ( x , c i ) = e − β i ∥ x − c i ∥ 2 \rho(\mathbf{x},\mathbf{c_i})=e^{-\beta_i\|\mathbf{x}-\mathbf{c_i}\|^2} ρ(x,ci)=e−βi∥x−ci∥2, c i \mathbf{c_i} ci和 w i w_i wi为第i个隐藏层神经元对应的中心和权重。 - 自适应谐振理论网络 Adaptive Resonance Theory network —— 简称ART网络。
- 自组织硬核网络 Self-Organizing Map network —— 简称SOM网络。
- 级联相关网络 —— 其是结构自适应网络的代表,将网络结构也当作学习的目标之一。
- 递归神经网络 —— 允许网络中出现环形结构,从而可让一些神经元的输出反馈回来作为下一时刻的输入信号。
- Elman 网络 —— 最常用的递归神经网络之一。
- 玻尔兹曼机 Boltzmann mechine —— 为网络定义一个能量函数,最小化时网络达到理想状态。
第六章 支持向量机
- 支持向量 support vector —— 离划分超平面最近的向量
- 间隔 margin —— 异类支持向量的距离
- 核函数 —— 由于映射后的特征空间维数很高甚至无穷,定义 k ( x , y ) = ϕ ( x ) T ϕ ( y ) k(x,y)=\phi(x)^T\phi(y) k(x,y)=ϕ(x)Tϕ(y)为核函数,表示特征空间向量的内积。
- 软间隔 soft margin —— 在最大化间隔的同时,允许某些样本不满足约束。
- 核方法 kernel methods —— 基于核函数的方法。
第七章 贝叶斯分类器
- 条件风险 conditional risk—— 定义条件风险 R ( c i ∣ x ) = ∑ j λ i j P ( c j ∣ x ) R(c_i|x)=\sum_{j}\lambda_{ij}P(c_j|x) R(ci∣x)=∑jλijP(cj∣x),其中 λ i j \lambda_{ij} λij表示将真实标记为 c j c_j cj错分为 c i c_i ci的损失。
- 贝叶斯最优分类器 Bayes optimal classifier —— h ∗ ( x ) = a r g m i n c R ( c ∣ x ) h^*(x)=argmin_c \; R(c|x) h∗(x)=argmincR(c∣x)
- 贝叶斯风险 Bayes risk —— m i n c R ( c ∣ x ) min_c R(c|x) mincR(c∣x), 1 − m i n c R ( c ∣ x ) 1-min_c R(c|x) 1−mincR(c∣x)表示了机器学习所能产生模型精度的理论上限。
- 判别式模型 discriminative model —— 给定x,直接建模P(c|x)
- 生成式模型 generative model —— 给定x, 先建模P(x,c),再得到P(c|x)
- 频率主义学派 Frequentist —— 认为参数虽然位置,但却是客观存在的固定值。
- 贝叶斯学派 Bayesian —— 参数本身也有分布
- 极大似然估计 Maximum Likelihood Estimation —— m a x ∏ x ∈ D c P ( x ∣ θ c ) max \prod_{x\in D_c}P(x|\theta_c) max∏x∈DcP(x∣θc)
- 朴素贝叶斯分类器 naice Bayes classifier —— 假设所有属性相互独立。
- 半朴素贝叶斯分类器 semi-naive Bayes classfier —— 适当考虑一部分属性间的依赖关系
- 独依赖估计 One-Dependent Estimator —— 假设每个属性在类别之外最多仅依赖于一个其他属性
- 贝叶斯网 Bayesian network/信念网 belief network —— 用有向无环图描述属性之间的依赖关系。
- 最小描述长度 minimal description length —— 为了找到贝叶斯网络的最优结构,定义了最小描述长度
S ( B ∣ D ) = f ( θ ) ∣ B ∣ − L L ( B ∣ D ) S(B|D)=f(\theta)|B|-LL(B|D) S(B∣D)=f(θ)∣B∣−LL(B∣D)
其中 ∣ B ∣ |B| ∣B∣表示贝叶斯网络的参数, f ( θ ) f(\theta) f(θ)表示每个参数所需字节数, − L L ( B ∣ D ) = ∑ l o g P B ( x i ) -LL(B|D)=\sum logP_B(x_i) −LL(B∣D)=∑logPB(xi)为对数似然,也表示概率分布 P B P_B PB需要多少字节来描述D。 - 隐变量 latent variaable —— 未观测的变量
- 期望最大化算法 Expectation-Maximization —— 简称EM。常用的估计隐变量的方法,包括两步:1,利用当前参数值来计算隐变量分布,进而计算对数似然期望。 2,重新确定参数使对数似然期望最大化。不断迭代直至收敛。
第八章 集成学习
- 集成学习 ensemble learning —— 构建并结合多个学习器完成学习任务,有时也被称为多分类器系统(multi-classifier system)、基于委员会的学习(committee-based learning)等
- 同质 homogeneous —— 集成中只包含同种类型的个体学习器
- 基学习器 base learner —— 同质集成中的个体学习器
- 异质 heterogenous —— 集成中包含不同类型的个体学习器
- 组件学习器 componet learner —— 异质集成中的个体学习器
- 弱学习器 weak learner —— 泛化性能略优于随机猜测的学习器
- Boosting —— 先从初始训练集训练初一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前做错的训练样本受到更多关注,然后基于调整后的样本分布来训练下一个基学习器,如此直到学习器数目达到指定值,最终将所有学习器进行加权结合。
- Bagging —— 通过自助采样得到T个含m个样本的采样集,基于每个采样集训练出一个基学习器再结合。
- 包外估计 Out-of-Bag Estimate —— 对每个个体学习器 h t h_{t} ht而言,有36.8%的样本没有用来训练,称为该学习器的包外估计样本.对每个样本 x x x选择 x x x属于包外估计样本的那些基学习器做预测。
- 随机森林 Random Forest —— 简称RF。RF在以决策树位基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择。在RF中,对基决策树的每个节点,先从该节点的属性集合中随机选择一个包含k个属性的子集,再从这个子集中选择一个最优属性用于划分。
- 元学习器 meta-learner —— 用于结合各个体学习器结果的学习器
第九章 聚类
- 簇 cluster —— 聚类产生的子集。
- 簇标记 cluster label —— 每个样本聚类的结果。
- 外部指标 external index —— 将聚类结果与某个参考模型进行比较
- 内部指标 internal index —— 直接考察聚类结果
- 闵可夫斯基距离 Minkowski distance —— d i s t m k ( x i , x j ) = ( ∑ u = 1 ∣ x i u − x j u ∣ p ) 1 p dist_{mk}(x_i,x_j)=(\sum_{u=1}|x_{iu}-x_{ju}|^p)^{\frac{1}{p}} distmk(xi,xj)=(∑u=1∣xiu−xju∣p)p1
- 有序属性 ordinal attribute —— 可以计算距离的属性
- k均值 k-means —— m i n ∑ i ∑ x ∈ C i ∥ x − μ i ∥ 2 2 min \sum_{i}\sum_{x\in C_i}\|x-\mu_i\|_2^2 min∑i∑x∈Ci∥x−μi∥22
- 学习向量量化 learning vector quantization —— 假设样本带标记。要学得一组原型向量能表示全部样本,实现有损压缩。先初始化原型向量,然后每轮迭代中随机选取一个有标记的训练样本,找出与其距离最近的原型向量,如果两者标记相同则更新原型向量减小距离,反之增大距离。
- 高斯混合聚类 —— 假设模型的采样服从高斯混合分布:
P M ( x ) = ∑ i α i ⋅ p ( x ∣ μ i , Θ ) P_M(x)=\sum_i\alpha_i\cdot p(x|\mu_i,\Theta) PM(x)=i∑αi⋅p(x∣μi,Θ)
利用EM算法求参数 α i \alpha_i αi 均值 μ i \mu_i μi,协方差矩阵 Θ i \Theta_i Θi - 密度聚类 —— 从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断拓展簇。
- 层次聚类 —— 在不同层次对数据集进行划分,从而形成树形的聚类结构。比如先将每个样本看成一个簇,然后再每一步中找出距离最近的两个簇合并,不断迭代直到达到预设的聚类簇个数。
第十章 降维与度量学习
- k近邻 k-Nearest Neighbor —— 简称 kNN。给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,基于这k个邻居预测。
- 懒惰学习 lazy learning —— 训练阶段仅把样本保存起来,训练开销为零
- 急切学习eager learning —— 在训练阶段就对样本进行学习处理
- 密采样 dense sample
- 维数灾难 curse of dimensionality —— 高维情形下出现的问题,如数据样本稀疏、距离计算等。
- 子空间 subspace
- 多维缩放 Multiple Dimensional Scaling —— 简称 MDS ,要求原始空间中样本之间的距离在低维空间中得以保持。
- 线性降维 —— 满足 Z = W T X Z=W^TX Z=WTX,其中W一般为正交矩阵
- 超平面 —— n维线性空间中维度为n-1的子空间。它可以把线性空间分割成不相交的两部分
- 主成分分析 Principal Component Analysis —— 简称PCA。可分别从最小化重构误差(欧式距离)和最大化投影后方差推导
- 本真低维空间 intrinsic space —— 真实的低维空间
- 核主成分分析 kernelized PCA —— 简称KPCA。
- 流行学习 manifold learning —— 前提假设某些高维数据,实际是一种低维的流形结构嵌入在高维空间中。流形学习的目的是将其映射回低维空间中,揭示其本质。流行在全局上不是欧式空间,但局部上可看成欧式空间。
- 等度量映射 Isometric Mapping —— 核心思想是保持近邻样本之间的距离。 先用 Dijkstra 算法或Floyd算法计算训练样本中任意两点的最短距离(为了保持局部欧式空间的性质,假设k近邻在图上有连接,剩下的在图上无连接),通过MDS获得训练样本的低维坐标。对于测试数据,训练一个回归学习器获得其低维坐标。
- 局部线性嵌入 Locally Linear Embedding —— 核心思想是保持邻域样本之间的线性关系。
- 度量学习 metric learning —— 在原数据空间直接学习一个距离度量。
- 马氏距离 Mahalanobis distance —— d i s t m a h 2 ( x i , x j ) = ( x i − x j ) T M ( x i − x j ) = ∥ P T x i − P T x j ∥ 2 2 dist_{mah}^2(x_i,x_j)=(x_i - x_j)^TM(x_i - x_j)=\|P^Tx_i-P^Tx_j \|^2_2 distmah2(xi,xj)=(xi−xj)TM(xi−xj)=∥PTxi−PTxj∥22,其中 M = P T P M=P^TP M=PTP是个半正定对称矩阵。
- 近邻成分分析 Neighbourhood Component Analysis —— 简称NCA。在这个近邻分类器中以距离的远近衡量同一类的概率。NCA的优化目标为:
min P 1 − ∑ i ∑ j ∈ Ω i e x p ( − d i s t m a h ( x i , x j ) ) ∑ l ∈ Φ i e x p ( − d i s t m a h ( x i , x l ) ) \min_{P}\quad 1-\sum_{i}\sum_{j\in\Omega_i}\frac{exp(-dist_{mah}(x_i,x_j))}{\sum_{l\in\Phi_i}exp(-dist_{mah}(x_i,x_l))} Pmin1−i∑j∈Ωi∑∑l∈Φiexp(−distmah(xi,xl))exp(−distmah(xi,xj))
其中 Φ i \Phi_i Φi表示与 x i x_i xi的k近邻样本集合, Ω i \Omega_i Ωi表示与 x i x_i xi的k近邻且属于同一类的样本集合。
另一种优化目标希望同类样本距离尽可能近,异类样本距离尽可能远:
min M ∑ ( x i , x j ) ∈ A d i s t m a h ( x i , x j ) \min_{M}\quad \sum_{(x_i,x_j)\in\Alpha} dist_{mah}(x_i,x_j) Mmin(xi,xj)∈A∑distmah(xi,xj)
s . t . ∑ ( x i , x k ) ∈ B d i s t m a h ( x i , x k ) ≥ 1 s.t. \sum_{(x_i,x_k)\in\Beta} dist_{mah}(x_i,x_k)\ge1 s.t.(xi,xk)∈B∑distmah(xi,xk)≥1
M i s h a l f P o s i t i v e D e f i n i t e M\;is \;half \;Positive\;Definite MishalfPositiveDefinite
第十一章 特征选择与稀疏学习
- 子集搜索 subset search —— 给定特征集合,从仅含一个元素的子集开始,确定最优子集,下一轮在前一轮的最优子集上增加一个集合。
- 子集评价 subset evaluation —— 对于离散属性子集A,根据其信息增益来判断A的重要性。
- Relief 过滤式特征选择 —— 对特征的第j个分量计算其重要性:
σ j = ∑ i ( − d i f f ( x i j , x i , n h j ) + ∑ l ≠ k ( p l × d i f f ( x i j , x i , l , n m j ) ) ) \sigma^j=\sum_{i}(-diff(x_i^j,x_{i,nh}^j)+\sum_{l\neq k}(p_l\times diff(x_i^j,x_{i,l,nm}^j))) σj=i∑(−diff(xij,xi,nhj)+l=k∑(pl×diff(xij,xi,l,nmj)))
其中 x i x_i xi表示第 i i i个训练样本, x i , n h x_{i,nh} xi,nh表示离 x i x_i xi同属第 k k k类且最近的样本, x i , l , m h x_{i,l,mh} xi,l,mh表示属于第 l l l类且离 x i x_i xi最近的样本, p l p_l pl表示第 l l l类样本的占比。 - LVW 包裹式特征选择 —— 随机产生特征子集,交叉验证,选择错误率最小的特征子集。
- 嵌入式特征选择 —— 对特征向量应用稀疏表示
- 字典学习 dictionary learning —— 最简单的形式为
min B , α i ∑ i ∥ x i − B α i ∥ 2 2 + λ ∑ i ∥ α i ∥ 1 \min_{\Beta,\alpha_i}\quad \sum_{i}\|x_i-\Beta\alpha_i\|^2_2+\lambda \sum_{i}\|\alpha_i\|_1 B,αimini∑∥xi−Bαi∥22+λi∑∥αi∥1
可交叉求解 - 奈奎斯特采样定理 —— 采样频率达到模拟信号最高频率的两倍,则采样后的数字信号保留了模拟信号的全部信息
第十二章 计算学习理论
- 不合 disagreement —— 用来度量两个映射之间的差别:
d ( h 1 , h 2 ) = P x ∼ D ( h 1 ( x ) ≠ h 2 ( x ) ) d(h_1,h_2)=P_{x\sim D}(h_1(x)\neq h_2(x)) d(h1,h2)=Px∼D(h1(x)=h2(x)) - Jensen 不等式 —— 对于任意凸函数,有:
f ( E ( x ) ) ≤ E ( f ( x ) ) f(E(x))\le E(f(x)) f(E(x))≤E(f(x)) - Hoeffding 不等式 —— 若
x
1
,
x
2
,
⋯
,
x
m
x_1,x_2,\cdots,x_m
x1,x2,⋯,xm为m个独立随机变量且满足
0
≤
x
i
≤
1
0\le x_i \le 1
0≤xi≤1,则
∀
ϵ
≥
0
\forall \epsilon \ge 0
∀ϵ≥0,有:
P ( 1 m ∑ x i − 1 m ∑ E ( x i ) ≥ ϵ ) ≤ e x p ( − 2 m ϵ 2 ) P(\frac{1}{m}\sum x_i -\frac{1}{m}\sum E(x_i)\ge \epsilon) \le exp(-2m\epsilon^2) P(m1∑xi−m1∑E(xi)≥ϵ)≤exp(−2mϵ2)
P ( ∥ 1 m ∑ x i − 1 m ∑ E ( x i ) ∥ ≥ ϵ ) ≤ 2 e x p ( − 2 m ϵ 2 ) P(\|\frac{1}{m}\sum x_i -\frac{1}{m}\sum E(x_i)\|\ge \epsilon) \le 2exp(-2m\epsilon^2) P(∥m1∑xi−m1∑E(xi)∥≥ϵ)≤2exp(−2mϵ2) - McDiarmid 不等式 —— 若
x
1
,
x
2
,
⋯
,
x
m
x_1,x_2,\cdots,x_m
x1,x2,⋯,xm为m个独立随机变量, 且函数f满足:
sup ∣ f ( x 1 , x 2 , ⋯ , x m ) − f ( x 1 , ⋯ , x i − 1 , x i , , x i + 1 , ⋯ , x m ) ∣ ≤ c i \sup |f(x_1,x_2,\cdots,x_m)-f(x_1,\cdots,x_{i-1},x_i^,,x_{i+1},\cdots,x_m)|\le c_i sup∣f(x1,x2,⋯,xm)−f(x1,⋯,xi−1,xi,,xi+1,⋯,xm)∣≤ci
则:
P ( f ( x 1 , x 2 , ⋯ , x m ) − E ( f ( x 1 , x 2 , ⋯ , x m ) ) ≥ ϵ ) ≤ e x p ( − 2 ϵ 2 ∑ c i 2 ) P(f(x_1,x_2,\cdots,x_m)-E(f(x_1,x_2,\cdots,x_m))\ge \epsilon)\le exp(\frac{-2\epsilon^2}{\sum c_i^2}) P(f(x1,x2,⋯,xm)−E(f(x1,x2,⋯,xm))≥ϵ)≤exp(∑ci2−2ϵ2)
P ( ∣ f ( x 1 , x 2 , ⋯ , x m ) − E ( f ( x 1 , x 2 , ⋯ , x m ) ) ∣ ≥ ϵ ) ≤ 2 e x p ( − 2 ϵ 2 ∑ c i 2 ) P(|f(x_1,x_2,\cdots,x_m)-E(f(x_1,x_2,\cdots,x_m))|\ge \epsilon)\le 2exp(\frac{-2\epsilon^2}{\sum c_i^2}) P(∣f(x1,x2,⋯,xm)−E(f(x1,x2,⋯,xm))∣≥ϵ)≤2exp(∑ci2−2ϵ2) - 概念类 concept class —— 输入到输出的目标映射的集合
- 假设空间 hypothesis space —— 算法自认为可能的目标概念的集合。
- 可分 separable/一致 consistent —— 假设空间中存在目标概念。
- 概率近似正确 Probably Approximately Correct —— 简称PAC。希望算法学得的假设尽可能接近目标概念。因为机器学习过程受很多因素制约,学习结果有偶然性。所以希望以较大的概率学得误差满足预设上限的模型。
- PAC辨识(PAC Identify)—— 对
0
<
ϵ
,
σ
<
1
0<\epsilon,\sigma<1
0<ϵ,σ<1,满足
P ( E ( h ) ≤ ϵ ) ≥ 1 − σ P(E(h)\le\epsilon)\ge 1-\sigma P(E(h)≤ϵ)≥1−σ
则称算法能以至少( 1 − σ 1-\sigma 1−σ)的概率学得与目标概念误差不超过 ϵ \epsilon ϵ的近似。 - 增长函数 growth function —— 表示假设空间对m个实例所能赋予标记的最大可能结果数,描述了假设空间的表示能力。
\TODO