统计学习基本概念

监督学习:概念解析与模型评估
本文介绍了监督学习的基本概念,包括概述、输入输出空间、策略、模型评估以及生成模型和判别模型的区别。监督学习的目标是选择期望风险最小的模型,通过训练误差和测试误差评估模型性能。常见的评估指标包括分类准确率、精确率和召回率。

监督学习——基本概念

今天第一次用Markdown写文档,好兴奋~
整理一下统计学习的基本概念,顺便练习一下输入公式~

1. 概述

  监督学习是区别于非监督学习、半监督学习和强化学习的概念。[1]中有一个对监督学习的任务描述:
  从给定的训练数据集合出发,假设要学习的模型属于某个函数的集合(即假设空间,hypothesis space),应用某个评价准则选择最优的模型。

2. 空间

  由于监督学习有标签,输入变量X和输出变量Y可以看作分别来自输入空间和输出空间。训练数据与测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。
  输入由特征表示,所有的特征向量构成一个特征空间。特征空间的每一维对应一个特征。
  假设空间为由输入空间到输出空间映射的集合。监督学习的模型可以为概率模型或非概率模型,假设空间可以是由参数向量决定的函数族:

F={f|Y=f(X)}
也可以是参数向量决定的条件概率分布族:
F={P|Pθ(Y|X),θRn}
  参数向量θ取值于参数空间,参数空间为n维欧式空间Rn

3. 策略

  策略就是按照什么样的准则学习或选择最优模型。这里定义损失函数和风险函数。损失函数L(Y,f(X))评价一次预测的好坏,例如0-1损失函数,平方损失函数,对数似然损失函数等。风险函数就是期望损失,评价平均意义下模型的好坏:

Rexp(f)=L(y,f(x))P(x,y)dxdy
学习的目标就是选择期望风险最小的函数,而实际上联合分布未知,所以常用经验风险代替:
Remp(f)=1Ni=1NL(yi,f(xi))
对应的策略称为经验风险最小化。或者加上正则项,称为结构风险最小化。贝叶斯估计中的最大后验概率估计就是结构风险最小化的例子。

4. 模型评估

  给定损失函数以后,可以用模型的训练误差和测试误差评估学习方法。训练误差是指模型关于训练数据集的平均损失。测试误差是指模型关于测试数据集的平均损失。
  如果样本数据充足,选择模型的方法就是随机将数据集分为三部分:训练集,验证集(validation set)和测试集。训练集用来训练模型,验证集用来选择模型,测试集用于最终对学习方法的评估。
  如果样本不充足,可以采用交叉验证的方法(cross validation),即把数据分成若干单元,将切分后的单元组成训练集和测试集,反复进行训练、测试和模型选择。
  学习方法的泛化能力(generalization ability)是指该方法学习到的模型对未知数据的预测能力。实际应用中采用最多的是通过测试误差评价泛化能力,或者用模型的期望风险作为泛化误差。
  评价分类器的方法可以用分类准确率,即正确分类的样本数与总样本数之比。对于二分类问题,常用的指标为精确率(precision)和召回率(recall)。定义正类和负类后,可能出现以下几种情况:TP——将正类预测为正类数;FN——将正类预测为负类数;FP——将负类预测为正类数;TN——将负类预测为负类数。精确率定义为:

P=TPTP+FP
召回率定义为
R=TPTP+FN

5. 生成模型和判别模型

  生成方法是由数据学习联合概率分布P(X,Y),然后求出条件概率分布作为预测的模型:

P(X|Y)=P(X,Y)P(X)
模型中体现出了给定X输出Y的关系。典型的生成模型有:朴素贝叶斯和隐马尔科夫模型。
  判别方法由数据直接学习决策函数或者条件概率分布。判别方法关心的是对给定的输入X应该预测什么样的输出Y。典型的判别模型包括:回归,K邻近法,感知机,决策树,最大熵模型,支持向量机,Adaboost和条件随机场。

参考资料

[1] 李航《统计学习方法》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值