统计学习笔记-概述
统计学习分为监督学习、无监督学习、强化学习
监督学习:有标注
输入变量X和输出变量Y:输入/输入空间上的随机变量
回归问题
输入和输出都是连续变量
常用平方损失函数,此情况下可用最小二乘法求解
分类问题
输出是有限个离散变量
标注问题
输入和输出都是变量序列;不是单一变量的分类,而是变量序列的处理,如p31下面的英文句子例子
模型
一个输入到输出的映射f
假设空间
模型的集合,f的集合
学习的目的
找到最好的模型
模型的分类
是否确定
概率模型 probabilistic model
p(y|x)学到的是条件概率分布,即x取多少时,y取某些值的概率
如 决策树、朴素贝叶斯、隐马尔可夫、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型
概率模型通常可以表示成联合概率分布的形式
非概率模型/确定性模型 non-probabilistic /deterministic model
y=f(x)
如 感知机、支持向量机、k近邻、AdaBoost、k-means、潜在语义分析、神经网络
是否线性(针对非概率模型)
y=f(x)是否是线性函数
线性模型
感知机、线性支持向量机、k近邻、k-means、潜在语义分析
非线性模型
核函数支持向量机、AdaBoost、神经网络
在线学习:每次只接收一个样本(如强化学习)
批量学习:一次接收所有数据
策略
Y 真实值 f(x) 预测值
L(Y,f(x))损失函数
广义上看,非概率模型其实就是概率为1的模型
我们定义损失在概率分布下的期望为
风险函数risk function/期望损失expected loss/损失函数的期望/泛化误差(generalization error)
R e x p ( f ) = E P [ L ( Y , f ( X ) ) ] = ∫ x × y L ( y , f ( x ) ) P ( x , y ) d x d y R_{exp}(f)=E_P[L(Y,f(X))]=\int_{x\times y}L(y,f(x))P(x,y)dxdy Rexp(f)=EP[L(Y,f(X))]=∫x×yL(y,f(x))P(x,y)dxdy
学习的目标:选择期望风险最小的模型
但是由于训练时,测试集是不知道的,所以联合分布P(X,Y)是不知道的,所以不能准确计算
经验风险 empirical risk/经验损失
R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) R_{emp}(f)=\frac{1}{N}\sum\limits_{i=1}^{N}L(y_i,f(x_i)) Remp(f)=N1i=1∑NL(yi,f(xi))
是模型关于训练样本集的平均损失(注:训练集是确定的即是非概率的)
当样本数量趋近于无穷时,经验风险趋近于期望风险
经验风险最小化ERM / 结构风险最小化SRM(正则化)
选择经验风险最小的
vs
为了防止过拟合,加上了一个正则项(惩罚项)
R s r m ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) R_{srm}(f)=\frac{1}{N}\sum\limits_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f) Rsrm(f)=N1i=1∑NL(yi,f(xi))+λJ(f)
模型越复杂,复杂度J(f)越大
Accuracy 准确率 + 误差 loss =1
范数相关https://blog.youkuaiyun.com/qq_37466121/article/details/87855185
通过验证集来选择模型的方法,叫做交叉验证
简单交叉验证:只划分一次
s折交叉验证s-fold cross validation:划分为s个互不相交大小相同的子集,每次选一个做验证集,其它做训练集;s种都试一下,选平均最小的
监督学习分为生成方法和判别方法
生成模型generative和判别discriminative模型
生成模型学的是联合分布P(X,Y),判别模型学的是决策函数f(x)或者条件概率分布P(Y|X)
生成模型收敛更快,判别模型直接面向问题,更加准确
accuracy:准确率
二分类的acc起始就是0-1损失函数的准确率
预测\实际 | 正 | 负 |
---|---|---|
正 | TP | FP |
负 | FN | TN |
precision:精确率
T P T P + F P TP\over TP+FP