《统计学习方法》基本知识点与名词解释

本文深入探讨了统计学习方法的核心要素,包括模型、策略和算法,详细解析了感知机、K近邻法、朴素贝叶斯、决策树、逻辑斯谛回归等经典算法的原理与应用,强调了正则化、交叉验证对模型泛化能力的重要性。

第一章

  • 统计学习方法三要素:模型,策略,算法。
  • 实现统计学习方法的步骤如下:
    (1)得到一个有限的训练数据集合
    (2)确定包含所有可能的模型的假设空间,即学习模型的集合
    (3)确定模型选择的准则,即学习的策略
    (4)实现求解最优模型的算法,即学习的算法
    (5)通过学习方法选择最优模型
    (6)利用学习的最优模型对新数据进行预测或分析
  • 模型:在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。
  • 策略: 按照什么样的准则学习或选择最优的模型。
  • 算法: 算法是指学习模型的具体计算方法。选择最优模型以后,考虑用什么样的计算方法求解最优模型。
  • 模型选择:正则化,交叉验证与学习的泛化能力
  • 学习有(监督学习,非监督学习,半监督学习,强化学习),主要包括用来分类,标注与回归问题。
  • 监督学习的主要任务是:学习一个模型,使模型能够对任意给定的输入,对其对应的输出做出一个好的预测。
  • 统计学习以计算机网络为平台,是建立在网络之上的,统计学习是以数据为研究对象,统计学习的目的是对数据进行预测与分析。
  • 数据是多样的,包括存在于计算机及网络上的各种数字,文字,图像,视频,音频数据以及他们的组合。
  • 统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。
  • 统计学习也称为统计机器学习。

第二章

  • 感知机:二分类的线性分类模型,属于判别模型。
  • 感知机学习目标:求得一个能够将训练集正实例点和负实例点完全正确分开的分离超平面。
  • 损失函数的选择:一个自然选择是误分类点的总数,另一个是误分类点到超平面S的总距离。
  • 感知机学习算法:误分类驱动,采用随机梯度下降法(对损失函数的最优化算法)。
  • 感知机原始形式:任意选取一个超平面,采用梯度下降法不断极小化目标函数,在这个过程中一次随机选取一个误分类点使其梯度下降。

第三章

  • K近邻法:是一种基本分类与回归方法(利用训练数据集对特征向量空间划分,并作为其分类的模型)。
  • K近邻法三个基本要素:K值选择,距离度量(欧氏距离)以及分类决策规则(如多数表决)。
  • KD树:是一种对K维空间中的实例点进行存储以便对其进行快速检索的树形数据结构(KD树是二叉树表示对K维空间的划分)。
  • K近邻模型对应于基于训练数据集对特征空间的一个划分,K近邻法中,当训练集,距离度量,K值及分类决策规则确定后,结果唯一确定。
  • 距离度量:特征空间中两个实例点的距离是两个实例点相似程度的反映(两个点之间的真实距离)常用的距离度量是欧氏距离及更一般的Lp距离。
  • 欧式距离:两个特征向量长度平方和的平方根。即真实距离。
    曼哈顿距离:两个特征在标准坐标系中绝对轴距之和。
    余弦距离:特征向量夹角的余弦值。

第四章

  • 朴素贝叶斯:基于贝贝叶斯定理与特征条件独立假设的分类方法。
  • 朴素贝叶斯是典型的生成学习方法。生成方法由训练数据学习联合概率分布P(x,y),然后求得后验概率分布P(Y|X)。
  • 概率估计方法可以是极大似然估计或贝叶斯估计。

第五章

  • 决策树:是一种基本的分类与回归方法。呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。
  • 决策树优点:具有可读性,分类速度快。
  • 决策树学习三个步骤:特征选择,决策树的生成,决策树的修剪。
  • 分类决策树模型:是一种基于特征对实例进行分类的树形结构。由结点和有向边组成。
  • 决策树旨在:构建一个与训练数据拟合很好,并且复杂度小的决策树。
  • 结点:内部结点表示一个特征或属性。叶结点表示一个类。
  • 决策树学习本质:从训练数据集中归纳出一组分类规则。
  • 决策树学习算法:是一个递归的选择最优特征,并根据该特征对训练数据进行分割,使得对各个子数据集有一个最好的分类过程。
  • 特征选择:选取对训练数据具有分类能力的特征,提高决策树学习的效率。
  • 熵:表示随机变量不确定性的度量。
  • 条件熵:在已知随机变量X的条件下随机变量Y的不确定性。
  • 互信息:熵与条件熵之差(决策树学习中的信息增益等价于训练数据集中类与特征的互信息)。
  • 信息增益:表示得知特征X的信息而使得类Y的信息不确定性减少的程度。
  • 当熵和条件熵的概率由数据估计得到时,所对应的熵和条件熵分别称为经验熵和经验条件熵。
  • 信息增益准则:对训练数据集D计算其每个特征的信息增益并比较他们的大小,选择信息增益最大的特征。
  • 信息增益比:特征选择的另一准则。信息增益与训练数据集D的经验熵之比。
  • ID3算法核心:在决策树各个结点上应用信息增益准则选择特征,递归的构建决策树。
  • 剪枝:在决策树学习中将已生成的树进行简化的过程。通过极小化决策树整体的损失函数或代价函数来实现。
  • 决策树剪枝:由于生成的决策树存在过拟合问题,进行剪枝,以简化决策树。
  • 决策树生成(CART生成):递归的构建二叉决策树的过程。对回归树用平方误差最小化准则,对分类树用基尼指数最小化准则,进行特征选择,生成二叉树。
  • 分类树生成:用基尼指数选择最优特征,同时决定该特征的最优二值切分点。
    特征选择目的:选取对训练数据能够分类的特征。

第六章

  • 逻辑斯谛回归:统计学习中经典分类方法,最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型。
  • 逻辑斯谛回归模型和最大熵模型都属于对数线性模型。
  • 二项逻辑斯谛回归模型:一种分类模型。
  • 最大熵原理:概率模型学习或估计的一个准则,认为学习概率模型时,在所有可能的概率模型中,熵最大的模型是最好的模型。也可以表述为在满足约束条件的模型集合中选取熵最大的模型。
  • 最大熵模型:将最大熵原理应用到分类得到最大熵模型。
  • 最大熵模型学习可以形式化为约束最优化问题。学习过程是求解最大熵模型的过程。
  • 逻辑斯谛回归模型和最大熵模型:归结为以似然函数为目标函数的最优化问题。一般采用极大似然或正则化的极大似然估计。

基本名词解释:

  • 监督学习:从给定有限的训练数据出发,假设数据是独立同分布的,而且假设模型属于某个假设空间,应用某一评价准则,从假设空间中选取一个最优的模型,使它对已给训练数据及未知测试数据在给定评价标准意义下有最准确地预测。
  • 输入空间和输出空间:在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间与输出空间。可以是有限元素的集合,也可以是整个欧式空间。
  • 特征空间:每个具体的输入是一个实例,通常由特征向量表示,这时,所有特征向量存在的空间称为特征空间。
  • 假设空间:模型是一个由输入到输出的映射,这一映射由模型来表示。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间。
  • 联合概率分布:监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y),P(X,Y)表示分布函数或分布密度函数。在学习过程中,假设这一联合概率分布存在,但在学习系统中,联合概率分布的具体定义未知。
  • 过拟合:学习时选择的模型所包含的参数过多,以至于出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。
  • 正则化:正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。
  • 交叉验证:它是一种模型选择的策略,其基本思想是重复地使用数据,把给定的数据进行拆分,将拆分的数据集组合为训练集与测试集,在此基础上进行反复训练、测试以及模型选择。
  • 泛化误差:模型对于未知数据预测的误差。事实上就是所学习到的模型的期望风险。
  • 回归问题:输入变量与输出变量均为连续变量的预测问题称为回归问题。
  • 分类问题:输出变量为有限个离散变量的预测问题称为分类问题。
  • 标注问题:输入变量与输出变量均为变量序列的预测问题称为标注问题。
  • 经验风险最小化和结构风险最小化:期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练样本集的平均损失。由于实际情况下样本数目有限,用经验风险估计期望风险常常并不理想,因此要对经验风险进行一定的矫正。这就关系到两个策略:经验风险最小化和结构风险最小化。经验风险最小化认为经验风险最小的模型是最优模型,但也仅适用于样本容量足够大的情况。(极大似然估计就是经验风险最小化的例子,当模型是条件概率分布,损失函数时对数损失函数时,经验风险最小化就等价于极大似然估计)。结构风险最小化等价于正则化,是为了防止过拟合而提出的策略,它是在经验风险的基础上加上模型复杂度的正则项或罚项。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值