【机器学习】西瓜书一些关键词

本文全面介绍了机器学习领域的核心概念,涵盖有监督学习、无监督学习、集成学习、聚类、降维、特征选择等,深入解析了各类算法原理,如支持向量机、神经网络、决策树等,同时探讨了模型评估、选择及计算学习理论。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

记录周志华《机器学习》里的一些概念(尽量包括中英文)方便日后温习。当然,仅知道些概念是远远不够的。

正文
第一章 绪论
  • 特征向量 feature vector —— 机器学习的输入往往是向量形式
  • 分类 classification —— 预测为离散值的任务
  • 回归 regression —— 预测为连续值的任务
  • 聚类 clustering
  • 有监督学习 supervised learning —— 有标记信息,代表有分类和回归
  • 无监督学习 unsupervised learning —— 无标记信息,代表有聚类
  • 训练集
  • 验证集 validation set —— 根据在验证集的性能进行调参
  • 测试集
  • 归纳学习 inductive learning —— 从特殊到一般
  • 归纳偏好 inductive bias ——不论多么模棱两可的例子,模型都能产生确定的结果。
    奥卡姆剃刀 Occam’s razo —— 若有多个假设与观察一致,则选最简单的那个。
第二章 模型评估与选择
  • 训练误差 training error = 经验误差 empirical error
  • 测试误差 testing error ~= 泛化误差 generalization error
  • 过拟合 overfitting
  • 欠拟合 underfitting
  • 留出法 hold out ——将数据集分为互斥的训练集和测试集
  • 分层采样 stratified sampling —— 保留类别比例的采样方式
  • p次k折交叉验证 —— 随机地将数据集分为k组,依次选第i组作为测试集,剩下为训练集。重复p次
  • 自助法 bootstrapping —— 给定包含 m 个样本的数据集中有放回地抽m个数据作为训练集。这样约有 1 e \frac{1}{e} e1的数据不在训练集中,可作为测试集。
  • 真正例 TP 假正例 FP 真反例 TN 假反例 FN
  • 查准率 precision —— T P T P + F P \frac{TP}{TP+FP} TP+FPTP
  • 查全率 recall —— T P T P + F N \frac{TP}{TP+FN} TP+FNTP
  • PR曲线 —— 查准率查全率曲线 单调递减
  • 真正例率 TPR —— T P T P + F N \frac{TP}{TP+FN} TP+FNTP
  • 假正例率 FPR—— F P T N + F P \frac{FP}{TN+FP} TN+FPFP
  • ROC曲线 —— TPR 为纵轴, FPR为横轴 单调递增
  • AUC Area Under Curve
  • 代价敏感
  • 假设检验。测试误差和泛化误差毕竟是不同的,我们需要从测试误差 ϵ ^ \hat{\epsilon} ϵ^推测出泛化误差 ϵ \epsilon ϵ的分布。
  • 偏差-方差分解 —— 设在数据x,标记标签 y D y_D yD,真实标签y,在训练集D上学到模型f。则泛化误差有如下公式
    E D [ ( f ( x ; D ) − y D ) 2 ] = E D [ ( f ( x ; D ) − f ˉ ( x ) ) 2 ] + ( f ˉ ( x ) − y ) 2 + E D [ ( y D − y ) 2 ] E_D[(f(x;D)-y_D)^2] = E_D[(f(x;D)-\bar{f}(x))^2]+(\bar{f}(x)-y)^2+E_D[(y_D-y)^2] ED[(f(x;D)yD)2]=ED[(f(x;D)fˉ(x))2]+(fˉ(x)y)2+ED[(yDy)2]
    即 泛化误差为偏差、方差、噪声之和。
  • 误差-分歧分解 error-ambiguity decomposition: E = E ˉ − A ˉ E=\bar{E}-\bar{A} E=EˉAˉ,其中 E表示集成学习器的泛化误差, E ˉ \bar{E} Eˉ表示个体学习器泛化误差的加权平均, A ˉ \bar{A} Aˉ表示个体学习器的加权分歧值(可以理解成方差)。式子表明个体学习器准确性越高,多样性越大,则集成越好。
  • 多样性度量 diversity measure —— 度量个体分类器的多样性。
第三章 线性模型
  • 线性回归 linear regression —— 目标 m i n ∥ y − X ω ∣ 2 2 min \|y-X\omega|_2^2 minyXω22 , 令导数为0,得 ω = ( X T X ) − 1 X T y \omega = (X^TX)^{-1}X^Ty ω=(XTX)1XTy
  • 广义线性模型 generalized linear model —— y = g − 1 ( ω T x + b ) y=g^{-1}(\omega^Tx+b) y=g1(ωTx+b)
  • 线性判别分析 Linear Discriminant Analysis —— 思想:设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离。
  • OvO、OvR、MvM —— 二分类模型用于多分类的三种方法
  • 纠错输出码 Error Correcting Output Codes
  • 类别不平衡 class imbalance
  • 阈值移动 threshold-moving
  • 欠采样 undersampling = 下采样 downsampling —— 扔掉部分偏多的样本
  • 过采样 oversampling = 上采样 upsampling —— 增加偏少的样本,通常用插值的方法
  • 多标记学习 multi-label learning
第四章 决策树
  • 信息熵 —— E n t ( D ) = − ∑ p k l o g 2 p k Ent(D)=-\sum p_klog_2p_k Ent(D)=pklog2pk,其中 p k p_k pk表示集合 D D D中第 k k k类样本所占的比例。信息熵越小则 D D D纯度越高。
  • 信息增益 —— 假设按离散属性 a a a划分出 V V V个分支节点,第 v v v个节点的样本集为 D v D^v Dv,则信息增益 G a i n ( D , a ) Gain(D,a) Gain(D,a)定义为:
    G a i n ( D , a ) = E n t ( D ) − ∑ ∣ D v ∣ ∣ D ∣ E n t ( D v ) Gain(D,a)=Ent(D)-\sum\frac{|D^v|}{|D|}Ent(D^v) Gain(D,a)=Ent(D)DDvEnt(Dv)
  • 增益率 —— 信息增益在可取值数目较多的属性较大。为了减少这种影响,引入增益率:
    G a i n . r a t i o ( D , a ) = G a i n ( D , a ) I V ( a ) Gain.ratio(D,a) = \frac{Gain(D,a)}{IV(a)} Gain.ratio(D,a)=IV(a)Gain(D,a)
    其中 I V ( a ) = E n t ( D V ) = − ∑ ∣ D v ∣ ∣ D ∣ l o g 2 ∣ D v ∣ ∣ D ∣ IV(a)=Ent(DV)=-\sum\frac{|D^v|}{|D|}log_2{\frac{|D^v|}{|D|}} IV(a)=Ent(DV)=DDvlog2DDv表示 D D D若按属性 a a a来分类的信息熵。
  • 基尼指数 —— 同样表示 D D D的纯度,基尼值定义为:
    G i n i ( D ) = 1 − ∑ p k 2 Gini(D) = 1- \sum p_k^2 Gini(D)=1pk2
    反映了从 D D D随机抽取两个样本,其类别标记不一致的概率。
  • 预剪枝 —— 在决策树生成过程中,对每个节点划分前先进行估计,若当前节点的划分不能带来泛化性能提升(用验证集测试),则停止划分。
  • 后剪枝 —— 从一颗完整的决策树自底向上对非叶节点考察,若能替换成带来泛化性能提升的叶节点则替换。
  • 二分法 bi-partition ——对于连续值,确定一点 t t t使信息增益最大,从而使原数据集 D D D分为两类. 与离散值不同,连续值的属性还可以作为后代节点的划分属性。
  • 多变量决策树 multivariate decision tree —— 对于连续值属性来讲,传荣的二分类决策树的决策边界平行于特征轴。这显然难以近似真实的分类边界。可将每个非叶节点换成形如 ∑ ω i a i \sum \omega_i a_i ωiai的线性分类器。
第五章 神经网络
  • M-P神经元模型 —— 单个神经元,形如
    y = f ( ∑ ω i x i − θ ) y=f(\sum \omega_i x_i - \theta) y=f(ωixiθ)
  • 感知机 perceptron —— 单层神经网络。关于神经网络的层数,统计方法不一,有的仅不算输入层,有的既不算输入层也不算输出层。为了统一,这里神经网络的层数算上隐含层、输出层。
  • 多层前馈神经网络 multi-layer feedforward neural networks —— 普通的多层全连接网络。
  • 误差逆传播 error backpropagation —— 简称BP,主要利用求导的链式法则。
  • 早停 early stopping —— 为了防止过拟合,训练时若训练集误差降低但验证集误差升高,则停止训练。
  • 正则化 regularization —— 在误差目标函数中增加一个用于描述网络复杂度的部分。
  • 径向基函数网络 Radial Basis Function network —— 简称RBF网络,是一种单隐藏层前馈神经网络。可表示为:
    ψ ( x ) = ∑ ω i ρ ( x , c i ) \psi(\mathbf{x})=\sum \omega_i \rho(\mathbf{x},\mathbf{c_i}) ψ(x)=ωiρ(x,ci)
    其中 ρ ( x , c i ) = e − β i ∥ x − c i ∥ 2 \rho(\mathbf{x},\mathbf{c_i})=e^{-\beta_i\|\mathbf{x}-\mathbf{c_i}\|^2} ρ(x,ci)=eβixci2, c i \mathbf{c_i} ci w i w_i wi为第i个隐藏层神经元对应的中心和权重。
  • 自适应谐振理论网络 Adaptive Resonance Theory network —— 简称ART网络。
  • 自组织硬核网络 Self-Organizing Map network —— 简称SOM网络。
  • 级联相关网络 —— 其是结构自适应网络的代表,将网络结构也当作学习的目标之一。
  • 递归神经网络 —— 允许网络中出现环形结构,从而可让一些神经元的输出反馈回来作为下一时刻的输入信号。
  • Elman 网络 —— 最常用的递归神经网络之一。
  • 玻尔兹曼机 Boltzmann mechine —— 为网络定义一个能量函数,最小化时网络达到理想状态。
第六章 支持向量机
  • 支持向量 support vector —— 离划分超平面最近的向量
  • 间隔 margin —— 异类支持向量的距离
  • 核函数 —— 由于映射后的特征空间维数很高甚至无穷,定义 k ( x , y ) = ϕ ( x ) T ϕ ( y ) k(x,y)=\phi(x)^T\phi(y) k(x,y)=ϕ(x)Tϕ(y)为核函数,表示特征空间向量的内积。
  • 软间隔 soft margin —— 在最大化间隔的同时,允许某些样本不满足约束。
  • 核方法 kernel methods —— 基于核函数的方法。
第七章 贝叶斯分类器
  • 条件风险 conditional risk—— 定义条件风险 R ( c i ∣ x ) = ∑ j λ i j P ( c j ∣ x ) R(c_i|x)=\sum_{j}\lambda_{ij}P(c_j|x) Rcix=jλijP(cjx),其中 λ i j \lambda_{ij} λij表示将真实标记为 c j c_j cj错分为 c i c_i ci的损失。
  • 贝叶斯最优分类器 Bayes optimal classifier —— h ∗ ( x ) = a r g m i n c    R ( c ∣ x ) h^*(x)=argmin_c \; R(c|x) h(x)=argmincR(cx)
  • 贝叶斯风险 Bayes risk —— m i n c R ( c ∣ x ) min_c R(c|x) mincR(cx), 1 − m i n c R ( c ∣ x ) 1-min_c R(c|x) 1mincR(cx)表示了机器学习所能产生模型精度的理论上限。
  • 判别式模型 discriminative model —— 给定x,直接建模P(c|x)
  • 生成式模型 generative model —— 给定x, 先建模P(x,c),再得到P(c|x)
  • 频率主义学派 Frequentist —— 认为参数虽然位置,但却是客观存在的固定值。
  • 贝叶斯学派 Bayesian —— 参数本身也有分布
  • 极大似然估计 Maximum Likelihood Estimation —— m a x ∏ x ∈ D c P ( x ∣ θ c ) max \prod_{x\in D_c}P(x|\theta_c) maxxDcP(xθc)
  • 朴素贝叶斯分类器 naice Bayes classifier —— 假设所有属性相互独立。
  • 半朴素贝叶斯分类器 semi-naive Bayes classfier —— 适当考虑一部分属性间的依赖关系
  • 独依赖估计 One-Dependent Estimator —— 假设每个属性在类别之外最多仅依赖于一个其他属性
  • 贝叶斯网 Bayesian network/信念网 belief network —— 用有向无环图描述属性之间的依赖关系。
  • 最小描述长度 minimal description length —— 为了找到贝叶斯网络的最优结构,定义了最小描述长度
    S ( B ∣ D ) = f ( θ ) ∣ B ∣ − L L ( B ∣ D ) S(B|D)=f(\theta)|B|-LL(B|D) S(BD)=f(θ)BLL(BD)
    其中 ∣ B ∣ |B| B表示贝叶斯网络的参数, f ( θ ) f(\theta) f(θ)表示每个参数所需字节数, − L L ( B ∣ D ) = ∑ l o g P B ( x i ) -LL(B|D)=\sum logP_B(x_i) LL(BD)=logPB(xi)为对数似然,也表示概率分布 P B P_B PB需要多少字节来描述D。
  • 隐变量 latent variaable —— 未观测的变量
  • 期望最大化算法 Expectation-Maximization —— 简称EM。常用的估计隐变量的方法,包括两步:1,利用当前参数值来计算隐变量分布,进而计算对数似然期望。 2,重新确定参数使对数似然期望最大化。不断迭代直至收敛。
第八章 集成学习
  • 集成学习 ensemble learning —— 构建并结合多个学习器完成学习任务,有时也被称为多分类器系统(multi-classifier system)、基于委员会的学习(committee-based learning)等
  • 同质 homogeneous —— 集成中只包含同种类型的个体学习器
  • 基学习器 base learner —— 同质集成中的个体学习器
  • 异质 heterogenous —— 集成中包含不同类型的个体学习器
  • 组件学习器 componet learner —— 异质集成中的个体学习器
  • 弱学习器 weak learner —— 泛化性能略优于随机猜测的学习器
  • Boosting —— 先从初始训练集训练初一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前做错的训练样本受到更多关注,然后基于调整后的样本分布来训练下一个基学习器,如此直到学习器数目达到指定值,最终将所有学习器进行加权结合。
  • Bagging —— 通过自助采样得到T个含m个样本的采样集,基于每个采样集训练出一个基学习器再结合。
  • 包外估计 Out-of-Bag Estimate —— 对每个个体学习器 h t h_{t} ht而言,有36.8%的样本没有用来训练,称为该学习器的包外估计样本.对每个样本 x x x选择 x x x属于包外估计样本的那些基学习器做预测。
  • 随机森林 Random Forest —— 简称RF。RF在以决策树位基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择。在RF中,对基决策树的每个节点,先从该节点的属性集合中随机选择一个包含k个属性的子集,再从这个子集中选择一个最优属性用于划分。
  • 元学习器 meta-learner —— 用于结合各个体学习器结果的学习器
第九章 聚类
  • 簇 cluster —— 聚类产生的子集。
  • 簇标记 cluster label —— 每个样本聚类的结果。
  • 外部指标 external index —— 将聚类结果与某个参考模型进行比较
  • 内部指标 internal index —— 直接考察聚类结果
  • 闵可夫斯基距离 Minkowski distance —— d i s t m k ( x i , x j ) = ( ∑ u = 1 ∣ x i u − x j u ∣ p ) 1 p dist_{mk}(x_i,x_j)=(\sum_{u=1}|x_{iu}-x_{ju}|^p)^{\frac{1}{p}} distmk(xi,xj)=(u=1xiuxjup)p1
  • 有序属性 ordinal attribute —— 可以计算距离的属性
  • k均值 k-means —— m i n ∑ i ∑ x ∈ C i ∥ x − μ i ∥ 2 2 min \sum_{i}\sum_{x\in C_i}\|x-\mu_i\|_2^2 minixCixμi22
  • 学习向量量化 learning vector quantization —— 假设样本带标记。要学得一组原型向量能表示全部样本,实现有损压缩。先初始化原型向量,然后每轮迭代中随机选取一个有标记的训练样本,找出与其距离最近的原型向量,如果两者标记相同则更新原型向量减小距离,反之增大距离。
  • 高斯混合聚类 —— 假设模型的采样服从高斯混合分布:
    P M ( x ) = ∑ i α i ⋅ p ( x ∣ μ i , Θ ) P_M(x)=\sum_i\alpha_i\cdot p(x|\mu_i,\Theta) PM(x)=iαip(xμi,Θ)
    利用EM算法求参数 α i \alpha_i αi 均值 μ i \mu_i μi,协方差矩阵 Θ i \Theta_i Θi
  • 密度聚类 —— 从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断拓展簇。
  • 层次聚类 —— 在不同层次对数据集进行划分,从而形成树形的聚类结构。比如先将每个样本看成一个簇,然后再每一步中找出距离最近的两个簇合并,不断迭代直到达到预设的聚类簇个数。
第十章 降维与度量学习
  • k近邻 k-Nearest Neighbor —— 简称 kNN。给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,基于这k个邻居预测。
  • 懒惰学习 lazy learning —— 训练阶段仅把样本保存起来,训练开销为零
  • 急切学习eager learning —— 在训练阶段就对样本进行学习处理
  • 密采样 dense sample
  • 维数灾难 curse of dimensionality —— 高维情形下出现的问题,如数据样本稀疏、距离计算等。
  • 子空间 subspace
  • 多维缩放 Multiple Dimensional Scaling —— 简称 MDS ,要求原始空间中样本之间的距离在低维空间中得以保持。
  • 线性降维 —— 满足 Z = W T X Z=W^TX Z=WTX,其中W一般为正交矩阵
  • 超平面 —— n维线性空间中维度为n-1的子空间。它可以把线性空间分割成不相交的两部分
  • 主成分分析 Principal Component Analysis —— 简称PCA。可分别从最小化重构误差(欧式距离)和最大化投影后方差推导
  • 本真低维空间 intrinsic space —— 真实的低维空间
  • 核主成分分析 kernelized PCA —— 简称KPCA。
  • 流行学习 manifold learning —— 前提假设某些高维数据,实际是一种低维的流形结构嵌入在高维空间中。流形学习的目的是将其映射回低维空间中,揭示其本质。流行在全局上不是欧式空间,但局部上可看成欧式空间。
  • 等度量映射 Isometric Mapping —— 核心思想是保持近邻样本之间的距离。 先用 Dijkstra 算法或Floyd算法计算训练样本中任意两点的最短距离(为了保持局部欧式空间的性质,假设k近邻在图上有连接,剩下的在图上无连接),通过MDS获得训练样本的低维坐标。对于测试数据,训练一个回归学习器获得其低维坐标。
  • 局部线性嵌入 Locally Linear Embedding —— 核心思想是保持邻域样本之间的线性关系。
  • 度量学习 metric learning —— 在原数据空间直接学习一个距离度量。
  • 马氏距离 Mahalanobis distance —— d i s t m a h 2 ( x i , x j ) = ( x i − x j ) T M ( x i − x j ) = ∥ P T x i − P T x j ∥ 2 2 dist_{mah}^2(x_i,x_j)=(x_i - x_j)^TM(x_i - x_j)=\|P^Tx_i-P^Tx_j \|^2_2 distmah2(xi,xj)=(xixj)TM(xixj)=PTxiPTxj22,其中 M = P T P M=P^TP M=PTP是个半正定对称矩阵。
  • 近邻成分分析 Neighbourhood Component Analysis —— 简称NCA。在这个近邻分类器中以距离的远近衡量同一类的概率。NCA的优化目标为:
    min ⁡ P 1 − ∑ i ∑ j ∈ Ω i e x p ( − d i s t m a h ( x i , x j ) ) ∑ l ∈ Φ i e x p ( − d i s t m a h ( x i , x l ) ) \min_{P}\quad 1-\sum_{i}\sum_{j\in\Omega_i}\frac{exp(-dist_{mah}(x_i,x_j))}{\sum_{l\in\Phi_i}exp(-dist_{mah}(x_i,x_l))} Pmin1ijΩilΦiexp(distmah(xi,xl))exp(distmah(xi,xj))
    其中 Φ i \Phi_i Φi表示与 x i x_i xi的k近邻样本集合, Ω i \Omega_i Ωi表示与 x i x_i xi的k近邻且属于同一类的样本集合。
    另一种优化目标希望同类样本距离尽可能近,异类样本距离尽可能远:
    min ⁡ M ∑ ( x i , x j ) ∈ A d i s t m a h ( x i , x j ) \min_{M}\quad \sum_{(x_i,x_j)\in\Alpha} dist_{mah}(x_i,x_j) Mmin(xi,xj)Adistmah(xi,xj)
    s . t . ∑ ( x i , x k ) ∈ B d i s t m a h ( x i , x k ) ≥ 1 s.t. \sum_{(x_i,x_k)\in\Beta} dist_{mah}(x_i,x_k)\ge1 s.t.(xi,xk)Bdistmah(xi,xk)1
    M    i s    h a l f    P o s i t i v e    D e f i n i t e M\;is \;half \;Positive\;Definite MishalfPositiveDefinite
第十一章 特征选择与稀疏学习
  • 子集搜索 subset search —— 给定特征集合,从仅含一个元素的子集开始,确定最优子集,下一轮在前一轮的最优子集上增加一个集合。
  • 子集评价 subset evaluation —— 对于离散属性子集A,根据其信息增益来判断A的重要性。
  • Relief 过滤式特征选择 —— 对特征的第j个分量计算其重要性:
    σ j = ∑ i ( − d i f f ( x i j , x i , n h j ) + ∑ l ≠ k ( p l × d i f f ( x i j , x i , l , n m j ) ) ) \sigma^j=\sum_{i}(-diff(x_i^j,x_{i,nh}^j)+\sum_{l\neq k}(p_l\times diff(x_i^j,x_{i,l,nm}^j))) σj=i(diff(xij,xi,nhj)+l=k(pl×diff(xij,xi,l,nmj)))
    其中 x i x_i xi表示第 i i i个训练样本, x i , n h x_{i,nh} xi,nh表示离 x i x_i xi同属第 k k k类且最近的样本, x i , l , m h x_{i,l,mh} xi,l,mh表示属于第 l l l类且离 x i x_i xi最近的样本, p l p_l pl表示第 l l l类样本的占比。
  • LVW 包裹式特征选择 —— 随机产生特征子集,交叉验证,选择错误率最小的特征子集。
  • 嵌入式特征选择 —— 对特征向量应用稀疏表示
  • 字典学习 dictionary learning —— 最简单的形式为
    min ⁡ B , α i ∑ i ∥ x i − B α i ∥ 2 2 + λ ∑ i ∥ α i ∥ 1 \min_{\Beta,\alpha_i}\quad \sum_{i}\|x_i-\Beta\alpha_i\|^2_2+\lambda \sum_{i}\|\alpha_i\|_1 B,αiminixiBαi22+λiαi1
    可交叉求解
  • 奈奎斯特采样定理 —— 采样频率达到模拟信号最高频率的两倍,则采样后的数字信号保留了模拟信号的全部信息
第十二章 计算学习理论
  • 不合 disagreement —— 用来度量两个映射之间的差别:
    d ( h 1 , h 2 ) = P x ∼ D ( h 1 ( x ) ≠ h 2 ( x ) ) d(h_1,h_2)=P_{x\sim D}(h_1(x)\neq h_2(x)) d(h1,h2)=PxD(h1(x)=h2(x))
  • Jensen 不等式 —— 对于任意凸函数,有:
    f ( E ( x ) ) ≤ E ( f ( x ) ) f(E(x))\le E(f(x)) f(E(x))E(f(x))
  • Hoeffding 不等式 —— 若 x 1 , x 2 , ⋯   , x m x_1,x_2,\cdots,x_m x1,x2,,xm为m个独立随机变量且满足 0 ≤ x i ≤ 1 0\le x_i \le 1 0xi1,则 ∀ ϵ ≥ 0 \forall \epsilon \ge 0 ϵ0,有:
    P ( 1 m ∑ x i − 1 m ∑ E ( x i ) ≥ ϵ ) ≤ e x p ( − 2 m ϵ 2 ) P(\frac{1}{m}\sum x_i -\frac{1}{m}\sum E(x_i)\ge \epsilon) \le exp(-2m\epsilon^2) P(m1xim1E(xi)ϵ)exp(2mϵ2)
    P ( ∥ 1 m ∑ x i − 1 m ∑ E ( x i ) ∥ ≥ ϵ ) ≤ 2 e x p ( − 2 m ϵ 2 ) P(\|\frac{1}{m}\sum x_i -\frac{1}{m}\sum E(x_i)\|\ge \epsilon) \le 2exp(-2m\epsilon^2) P(m1xim1E(xi)ϵ)2exp(2mϵ2)
  • McDiarmid 不等式 —— 若 x 1 , x 2 , ⋯   , x m x_1,x_2,\cdots,x_m x1,x2,,xm为m个独立随机变量, 且函数f满足:
    sup ⁡ ∣ f ( x 1 , x 2 , ⋯   , x m ) − f ( x 1 , ⋯   , x i − 1 , x i , , x i + 1 , ⋯   , x m ) ∣ ≤ c i \sup |f(x_1,x_2,\cdots,x_m)-f(x_1,\cdots,x_{i-1},x_i^,,x_{i+1},\cdots,x_m)|\le c_i supf(x1,x2,,xm)f(x1,,xi1,xi,,xi+1,,xm)ci
    则:
    P ( f ( x 1 , x 2 , ⋯   , x m ) − E ( f ( x 1 , x 2 , ⋯   , x m ) ) ≥ ϵ ) ≤ e x p ( − 2 ϵ 2 ∑ c i 2 ) P(f(x_1,x_2,\cdots,x_m)-E(f(x_1,x_2,\cdots,x_m))\ge \epsilon)\le exp(\frac{-2\epsilon^2}{\sum c_i^2}) P(f(x1,x2,,xm)E(f(x1,x2,,xm))ϵ)exp(ci22ϵ2)
    P ( ∣ f ( x 1 , x 2 , ⋯   , x m ) − E ( f ( x 1 , x 2 , ⋯   , x m ) ) ∣ ≥ ϵ ) ≤ 2 e x p ( − 2 ϵ 2 ∑ c i 2 ) P(|f(x_1,x_2,\cdots,x_m)-E(f(x_1,x_2,\cdots,x_m))|\ge \epsilon)\le 2exp(\frac{-2\epsilon^2}{\sum c_i^2}) P(f(x1,x2,,xm)E(f(x1,x2,,xm))ϵ)2exp(ci22ϵ2)
  • 概念类 concept class —— 输入到输出的目标映射的集合
  • 假设空间 hypothesis space —— 算法自认为可能的目标概念的集合。
  • 可分 separable/一致 consistent —— 假设空间中存在目标概念。
  • 概率近似正确 Probably Approximately Correct —— 简称PAC。希望算法学得的假设尽可能接近目标概念。因为机器学习过程受很多因素制约,学习结果有偶然性。所以希望以较大的概率学得误差满足预设上限的模型。
  • PAC辨识(PAC Identify)—— 对 0 < ϵ , σ < 1 0<\epsilon,\sigma<1 0<ϵ,σ<1,满足
    P ( E ( h ) ≤ ϵ ) ≥ 1 − σ P(E(h)\le\epsilon)\ge 1-\sigma P(E(h)ϵ)1σ
    则称算法能以至少( 1 − σ 1-\sigma 1σ)的概率学得与目标概念误差不超过 ϵ \epsilon ϵ的近似。
  • 增长函数 growth function —— 表示假设空间对m个实例所能赋予标记的最大可能结果数,描述了假设空间的表示能力。

\TODO

第十三章 半监督学习
第十四章 概率图模型
第十五章 规则学习
第十六章 强化学习
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值