【机器学习】西瓜书一些关键词

最新推荐文章于 2024-09-07 10:06:44 发布

陈生~

最新推荐文章于 2024-09-07 10:06:44 发布

阅读量419

点赞数 1

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/qq_43257640/article/details/104419833

版权

机器学习专栏收录该内容

1 篇文章

订阅专栏

本文全面介绍了机器学习领域的核心概念，涵盖有监督学习、无监督学习、集成学习、聚类、降维、特征选择等，深入解析了各类算法原理，如支持向量机、神经网络、决策树等，同时探讨了模型评估、选择及计算学习理论。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

记录周志华《机器学习》里的一些概念（尽量包括中英文）方便日后温习。当然，仅知道些概念是远远不够的。

正文

第一章绪论

特征向量 feature vector —— 机器学习的输入往往是向量形式
分类 classification —— 预测为离散值的任务
回归 regression —— 预测为连续值的任务
聚类 clustering
有监督学习 supervised learning —— 有标记信息，代表有分类和回归
无监督学习 unsupervised learning —— 无标记信息，代表有聚类
训练集
验证集 validation set —— 根据在验证集的性能进行调参
测试集
归纳学习 inductive learning —— 从特殊到一般
归纳偏好 inductive bias ——不论多么模棱两可的例子，模型都能产生确定的结果。
奥卡姆剃刀 Occam’s razo —— 若有多个假设与观察一致，则选最简单的那个。

第二章模型评估与选择

训练误差 training error = 经验误差 empirical error
测试误差 testing error ~= 泛化误差 generalization error
过拟合 overfitting
欠拟合 underfitting
留出法 hold out ——将数据集分为互斥的训练集和测试集
分层采样 stratified sampling —— 保留类别比例的采样方式
p次k折交叉验证 —— 随机地将数据集分为k组，依次选第i组作为测试集，剩下为训练集。重复p次
自助法 bootstrapping —— 给定包含 m 个样本的数据集中有放回地抽m个数据作为训练集。这样约有 $\frac{1}{e}$ 的数据不在训练集中，可作为测试集。
真正例 TP 假正例 FP 真反例 TN 假反例 FN
查准率 precision —— $\frac{TP}{TP+FP}$
查全率 recall —— $\frac{TP}{TP+FN}$
PR曲线 —— 查准率查全率曲线单调递减
真正例率 TPR —— $\frac{TP}{TP+FN}$
假正例率 FPR—— $\frac{FP}{TN+FP}$
ROC曲线 —— TPR 为纵轴， FPR为横轴单调递增
AUC Area Under Curve
代价敏感
假设检验。测试误差和泛化误差毕竟是不同的，我们需要从测试误差 $\hat{\epsilon}$ 推测出泛化误差 $\epsilon$ 的分布。
偏差-方差分解 —— 设在数据x,标记标签 $y_D$ ,真实标签y,在训练集D上学到模型f。则泛化误差有如下公式
$E_D[(f(x;D)-y_D)^2] = E_D[(f(x;D)-\bar{f}(x))^2]+(\bar{f}(x)-y)^2+E_D[(y_D-y)^2]$
即泛化误差为偏差、方差、噪声之和。
误差-分歧分解 error-ambiguity decomposition： $E=\bar{E}-\bar{A}$ ,其中 E表示集成学习器的泛化误差， $\bar{E}$ 表示个体学习器泛化误差的加权平均， $\bar{A}$ 表示个体学习器的加权分歧值（可以理解成方差）。式子表明个体学习器准确性越高，多样性越大，则集成越好。
多样性度量 diversity measure —— 度量个体分类器的多样性。

第三章线性模型

线性回归 linear regression —— 目标 $\|y-X\omega|_2^2$ , 令导数为0，得 $\omega = (X^TX)^{-1}X^Ty$
广义线性模型 generalized linear model —— $y=g^{-1}(\omega^Tx+b)$
线性判别分析 Linear Discriminant Analysis —— 思想：设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离。
OvO、OvR、MvM —— 二分类模型用于多分类的三种方法
纠错输出码 Error Correcting Output Codes
类别不平衡 class imbalance
阈值移动 threshold-moving
欠采样 undersampling = 下采样 downsampling —— 扔掉部分偏多的样本
过采样 oversampling = 上采样 upsampling —— 增加偏少的样本，通常用插值的方法
多标记学习 multi-label learning

第四章决策树

信息熵 —— $Ent(D)=-\sum p_klog_2p_k$ ,其中 $p_k$ 表示集合 $D$ 中第 $k$ 类样本所占的比例。信息熵越小则 $D$ 纯度越高。
信息增益 —— 假设按离散属性 $a$ 划分出 $V$ 个分支节点，第 $v$ 个节点的样本集为 $D^v$ ，则信息增益 $G a i n (D, a)$ 定义为:
$Gain(D,a)=Ent(D)-\sum\frac{|D^v|}{|D|}Ent(D^v)$
增益率 —— 信息增益在可取值数目较多的属性较大。为了减少这种影响，引入增益率：
$\frac{Gain(D,a)}{IV(a)}$
其中 $IV(a)=Ent(DV)=-\sum\frac{|D^v|}{|D|}log_2{\frac{|D^v|}{|D|}}$ 表示 $D$ 若按属性 $a$ 来分类的信息熵。
基尼指数 —— 同样表示 $D$ 的纯度，基尼值定义为：
$\sum p_k^2$
反映了从 $D$ 随机抽取两个样本，其类别标记不一致的概率。
预剪枝 —— 在决策树生成过程中，对每个节点划分前先进行估计，若当前节点的划分不能带来泛化性能提升（用验证集测试），则停止划分。
后剪枝 —— 从一颗完整的决策树自底向上对非叶节点考察，若能替换成带来泛化性能提升的叶节点则替换。
二分法 bi-partition ——对于连续值，确定一点 $t$ 使信息增益最大，从而使原数据集 $D$ 分为两类. 与离散值不同，连续值的属性还可以作为后代节点的划分属性。
多变量决策树 multivariate decision tree —— 对于连续值属性来讲，传荣的二分类决策树的决策边界平行于特征轴。这显然难以近似真实的分类边界。可将每个非叶节点换成形如 $\sum \omega_i a_i$ 的线性分类器。

第五章神经网络

M-P神经元模型 —— 单个神经元，形如
$y=f(\sum \omega_i x_i - \theta)$
感知机 perceptron —— 单层神经网络。关于神经网络的层数，统计方法不一，有的仅不算输入层，有的既不算输入层也不算输出层。为了统一，这里神经网络的层数算上隐含层、输出层。
多层前馈神经网络 multi-layer feedforward neural networks —— 普通的多层全连接网络。
误差逆传播 error backpropagation —— 简称BP，主要利用求导的链式法则。
早停 early stopping —— 为了防止过拟合，训练时若训练集误差降低但验证集误差升高，则停止训练。
正则化 regularization —— 在误差目标函数中增加一个用于描述网络复杂度的部分。
径向基函数网络 Radial Basis Function network —— 简称RBF网络，是一种单隐藏层前馈神经网络。可表示为:
$\psi(\mathbf{x})=\sum \omega_i \rho(\mathbf{x},\mathbf{c_i})$
其中 $\rho(\mathbf{x},\mathbf{c_i})=e^{-\beta_i\|\mathbf{x}-\mathbf{c_i}\|^2}$ , $\mathbf{c_i}$ 和 $w_i$ 为第i个隐藏层神经元对应的中心和权重。
自适应谐振理论网络 Adaptive Resonance Theory network —— 简称ART网络。
自组织硬核网络 Self-Organizing Map network —— 简称SOM网络。
级联相关网络 —— 其是结构自适应网络的代表，将网络结构也当作学习的目标之一。
递归神经网络 —— 允许网络中出现环形结构，从而可让一些神经元的输出反馈回来作为下一时刻的输入信号。
Elman 网络 —— 最常用的递归神经网络之一。
玻尔兹曼机 Boltzmann mechine —— 为网络定义一个能量函数，最小化时网络达到理想状态。

第六章支持向量机

支持向量 support vector —— 离划分超平面最近的向量
间隔 margin —— 异类支持向量的距离
核函数 —— 由于映射后的特征空间维数很高甚至无穷，定义 $k(x,y)=\phi(x)^T\phi(y)$ 为核函数，表示特征空间向量的内积。
软间隔 soft margin —— 在最大化间隔的同时，允许某些样本不满足约束。
核方法 kernel methods —— 基于核函数的方法。

第七章贝叶斯分类器

条件风险 conditional risk—— 定义条件风险 $R（c_i|x）=\sum_{j}\lambda_{ij}P(c_j|x)$ ,其中 $\lambda_{ij}$ 表示将真实标记为 $c_j$ 错分为 $c_i$ 的损失。
贝叶斯最优分类器 Bayes optimal classifier —— $h^*(x)=argmin_c \; R(c|x)$
贝叶斯风险 Bayes risk —— $min_c R(c|x)$ , $1-min_c R(c|x)$ 表示了机器学习所能产生模型精度的理论上限。
判别式模型 discriminative model —— 给定x，直接建模P（c|x）
生成式模型 generative model —— 给定x，先建模P(x,c)，再得到P（c|x）
频率主义学派 Frequentist —— 认为参数虽然位置，但却是客观存在的固定值。
贝叶斯学派 Bayesian —— 参数本身也有分布
极大似然估计 Maximum Likelihood Estimation —— $\prod_{x\in D_c}P(x|\theta_c)$
朴素贝叶斯分类器 naice Bayes classifier —— 假设所有属性相互独立。
半朴素贝叶斯分类器 semi-naive Bayes classfier —— 适当考虑一部分属性间的依赖关系
独依赖估计 One-Dependent Estimator —— 假设每个属性在类别之外最多仅依赖于一个其他属性
贝叶斯网 Bayesian network/信念网 belief network —— 用有向无环图描述属性之间的依赖关系。
最小描述长度 minimal description length —— 为了找到贝叶斯网络的最优结构，定义了最小描述长度
$S(B|D)=f(\theta)|B|-LL(B|D)$
其中 $∣ B ∣$ 表示贝叶斯网络的参数， $f(\theta)$ 表示每个参数所需字节数， $-LL(B|D)=\sum logP_B(x_i)$ 为对数似然，也表示概率分布 $P_B$ 需要多少字节来描述D。
隐变量 latent variaable —— 未观测的变量
期望最大化算法 Expectation-Maximization —— 简称EM。常用的估计隐变量的方法，包括两步：1，利用当前参数值来计算隐变量分布，进而计算对数似然期望。 2，重新确定参数使对数似然期望最大化。不断迭代直至收敛。

第八章集成学习

集成学习 ensemble learning —— 构建并结合多个学习器完成学习任务，有时也被称为多分类器系统(multi-classifier system)、基于委员会的学习（committee-based learning）等
同质 homogeneous —— 集成中只包含同种类型的个体学习器
基学习器 base learner —— 同质集成中的个体学习器
异质 heterogenous —— 集成中包含不同类型的个体学习器
组件学习器 componet learner —— 异质集成中的个体学习器
弱学习器 weak learner —— 泛化性能略优于随机猜测的学习器
Boosting —— 先从初始训练集训练初一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前做错的训练样本受到更多关注，然后基于调整后的样本分布来训练下一个基学习器，如此直到学习器数目达到指定值，最终将所有学习器进行加权结合。
Bagging —— 通过自助采样得到T个含m个样本的采样集，基于每个采样集训练出一个基学习器再结合。
包外估计 Out-of-Bag Estimate —— 对每个个体学习器 $h_{t}$ 而言，有36.8％的样本没有用来训练，称为该学习器的包外估计样本.对每个样本 $x$ 选择 $x$ 属于包外估计样本的那些基学习器做预测。
随机森林 Random Forest —— 简称RF。RF在以决策树位基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入了随机属性选择。在RF中，对基决策树的每个节点，先从该节点的属性集合中随机选择一个包含k个属性的子集，再从这个子集中选择一个最优属性用于划分。
元学习器 meta-learner —— 用于结合各个体学习器结果的学习器

第九章聚类

簇 cluster —— 聚类产生的子集。
簇标记 cluster label —— 每个样本聚类的结果。
外部指标 external index —— 将聚类结果与某个参考模型进行比较
内部指标 internal index —— 直接考察聚类结果
闵可夫斯基距离 Minkowski distance —— $dist_{mk}(x_i,x_j)=(\sum_{u=1}|x_{iu}-x_{ju}|^p)^{\frac{1}{p}}$
有序属性 ordinal attribute —— 可以计算距离的属性
k均值 k-means —— $\sum_{i}\sum_{x\in C_i}\|x-\mu_i\|_2^2$
学习向量量化 learning vector quantization —— 假设样本带标记。要学得一组原型向量能表示全部样本，实现有损压缩。先初始化原型向量，然后每轮迭代中随机选取一个有标记的训练样本，找出与其距离最近的原型向量，如果两者标记相同则更新原型向量减小距离，反之增大距离。
高斯混合聚类 —— 假设模型的采样服从高斯混合分布：
$P_M(x)=\sum_i\alpha_i\cdot p(x|\mu_i,\Theta)$
利用EM算法求参数 $\alpha_i$ 均值 $\mu_i$ ,协方差矩阵 $\Theta_i$
密度聚类 —— 从样本密度的角度来考察样本之间的可连接性，并基于可连接样本不断拓展簇。
层次聚类 —— 在不同层次对数据集进行划分，从而形成树形的聚类结构。比如先将每个样本看成一个簇，然后再每一步中找出距离最近的两个簇合并，不断迭代直到达到预设的聚类簇个数。

第十章降维与度量学习

k近邻 k-Nearest Neighbor —— 简称 kNN。给定测试样本，基于某种距离度量找出训练集中与其最靠近的k个训练样本,基于这k个邻居预测。
懒惰学习 lazy learning —— 训练阶段仅把样本保存起来，训练开销为零
急切学习eager learning —— 在训练阶段就对样本进行学习处理
密采样 dense sample
维数灾难 curse of dimensionality —— 高维情形下出现的问题，如数据样本稀疏、距离计算等。
子空间 subspace
多维缩放 Multiple Dimensional Scaling —— 简称 MDS ，要求原始空间中样本之间的距离在低维空间中得以保持。
线性降维 —— 满足 $Z=W^TX$ ,其中W一般为正交矩阵
超平面 —— n维线性空间中维度为n-1的子空间。它可以把线性空间分割成不相交的两部分
主成分分析 Principal Component Analysis —— 简称PCA。可分别从最小化重构误差(欧式距离)和最大化投影后方差推导
本真低维空间 intrinsic space —— 真实的低维空间
核主成分分析 kernelized PCA —— 简称KPCA。
流行学习 manifold learning —— 前提假设某些高维数据，实际是一种低维的流形结构嵌入在高维空间中。流形学习的目的是将其映射回低维空间中，揭示其本质。流行在全局上不是欧式空间，但局部上可看成欧式空间。
等度量映射 Isometric Mapping —— 核心思想是保持近邻样本之间的距离。先用 Dijkstra 算法或Floyd算法计算训练样本中任意两点的最短距离（为了保持局部欧式空间的性质，假设k近邻在图上有连接，剩下的在图上无连接），通过MDS获得训练样本的低维坐标。对于测试数据，训练一个回归学习器获得其低维坐标。
局部线性嵌入 Locally Linear Embedding —— 核心思想是保持邻域样本之间的线性关系。
度量学习 metric learning —— 在原数据空间直接学习一个距离度量。
马氏距离 Mahalanobis distance —— $dist_{mah}^2(x_i,x_j)=(x_i - x_j)^TM(x_i - x_j)=\|P^Tx_i-P^Tx_j \|^2_2$ ,其中 $M=P^TP$ 是个半正定对称矩阵。
近邻成分分析 Neighbourhood Component Analysis —— 简称NCA。在这个近邻分类器中以距离的远近衡量同一类的概率。NCA的优化目标为：
$\min_{P}\quad 1-\sum_{i}\sum_{j\in\Omega_i}\frac{exp(-dist_{mah}(x_i,x_j))}{\sum_{l\in\Phi_i}exp(-dist_{mah}(x_i,x_l))}$
其中 $\Phi_i$ 表示与 $x_i$ 的k近邻样本集合, $\Omega_i$ 表示与 $x_i$ 的k近邻且属于同一类的样本集合。
另一种优化目标希望同类样本距离尽可能近，异类样本距离尽可能远：
$\min_{M}\quad \sum_{(x_i,x_j)\in\Alpha} dist_{mah}(x_i,x_j)$
$\sum_{(x_i,x_k)\in\Beta} dist_{mah}(x_i,x_k)\ge1$
$M\;is \;half \;Positive\;Definite$

第十一章特征选择与稀疏学习

子集搜索 subset search —— 给定特征集合，从仅含一个元素的子集开始，确定最优子集，下一轮在前一轮的最优子集上增加一个集合。
子集评价 subset evaluation —— 对于离散属性子集A，根据其信息增益来判断A的重要性。
Relief 过滤式特征选择 —— 对特征的第j个分量计算其重要性：
$\sigma^j=\sum_{i}(-diff(x_i^j,x_{i,nh}^j)+\sum_{l\neq k}(p_l\times diff(x_i^j,x_{i,l,nm}^j)))$
其中 $x_i$ 表示第 $i$ 个训练样本， $x_{i,nh}$ 表示离 $x_i$ 同属第 $k$ 类且最近的样本， $x_{i,l,mh}$ 表示属于第 $l$ 类且离 $x_i$ 最近的样本， $p_l$ 表示第 $l$ 类样本的占比。
LVW 包裹式特征选择 —— 随机产生特征子集，交叉验证，选择错误率最小的特征子集。
嵌入式特征选择 —— 对特征向量应用稀疏表示
字典学习 dictionary learning —— 最简单的形式为
$\min_{\Beta,\alpha_i}\quad \sum_{i}\|x_i-\Beta\alpha_i\|^2_2+\lambda \sum_{i}\|\alpha_i\|_1$
可交叉求解
奈奎斯特采样定理 —— 采样频率达到模拟信号最高频率的两倍，则采样后的数字信号保留了模拟信号的全部信息

第十二章计算学习理论

不合 disagreement —— 用来度量两个映射之间的差别：
$d(h_1,h_2)=P_{x\sim D}(h_1(x)\neq h_2(x))$
Jensen 不等式 —— 对于任意凸函数，有：
$f(E(x))\le E(f(x))$
Hoeffding 不等式 —— 若 $x_1,x_2,\cdots,x_m$ 为m个独立随机变量且满足 $0\le x_i \le 1$ ，则 $\forall \epsilon \ge 0$ ，有：
$P(\frac{1}{m}\sum x_i -\frac{1}{m}\sum E(x_i)\ge \epsilon) \le exp(-2m\epsilon^2)$
$P(\|\frac{1}{m}\sum x_i -\frac{1}{m}\sum E(x_i)\|\ge \epsilon) \le 2exp(-2m\epsilon^2)$
McDiarmid 不等式 —— 若 $x_1,x_2,\cdots,x_m$ 为m个独立随机变量, 且函数f满足：
$\sup |f(x_1,x_2,\cdots,x_m)-f(x_1,\cdots,x_{i-1},x_i^,,x_{i+1},\cdots,x_m)|\le c_i$
则：
$P(f(x_1,x_2,\cdots,x_m)-E(f(x_1,x_2,\cdots,x_m))\ge \epsilon)\le exp(\frac{-2\epsilon^2}{\sum c_i^2})$
$P(|f(x_1,x_2,\cdots,x_m)-E(f(x_1,x_2,\cdots,x_m))|\ge \epsilon)\le 2exp(\frac{-2\epsilon^2}{\sum c_i^2})$
概念类 concept class —— 输入到输出的目标映射的集合
假设空间 hypothesis space —— 算法自认为可能的目标概念的集合。
可分 separable/一致 consistent —— 假设空间中存在目标概念。
概率近似正确 Probably Approximately Correct —— 简称PAC。希望算法学得的假设尽可能接近目标概念。因为机器学习过程受很多因素制约，学习结果有偶然性。所以希望以较大的概率学得误差满足预设上限的模型。
PAC辨识（PAC Identify）—— 对 $0<\epsilon,\sigma<1$ ，满足
$P(E(h)\le\epsilon)\ge 1-\sigma$
则称算法能以至少（ $1-\sigma$ ）的概率学得与目标概念误差不超过 $\epsilon$ 的近似。
增长函数 growth function —— 表示假设空间对m个实例所能赋予标记的最大可能结果数，描述了假设空间的表示能力。