统计学习笔记-概述

本文概述统计学习,包括监督学习的回归、分类和标注问题,模型分类,学习目的和策略。介绍了风险函数、经验风险最小化与结构风险最小化。深入讨论了生成模型与判别模型,以及贝叶斯估计和极大似然估计的概念,强调了两者在参数估计中的差异。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

统计学习笔记-概述

统计学习分为监督学习、无监督学习、强化学习

监督学习:有标注

输入变量X和输出变量Y:输入/输入空间上的随机变量

回归问题

输入和输出都是连续变量

常用平方损失函数,此情况下可用最小二乘法求解

分类问题

输出是有限个离散变量

标注问题

输入和输出都是变量序列;不是单一变量的分类,而是变量序列的处理,如p31下面的英文句子例子

模型

一个输入到输出的映射f

假设空间

模型的集合,f的集合

学习的目的

找到最好的模型

模型的分类

是否确定
概率模型 probabilistic model

p(y|x)学到的是条件概率分布,即x取多少时,y取某些值的概率

如 决策树、朴素贝叶斯、隐马尔可夫、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型

概率模型通常可以表示成联合概率分布的形式

非概率模型/确定性模型 non-probabilistic /deterministic model

y=f(x)

如 感知机、支持向量机、k近邻、AdaBoost、k-means、潜在语义分析、神经网络

是否线性(针对非概率模型)

y=f(x)是否是线性函数

线性模型

感知机、线性支持向量机、k近邻、k-means、潜在语义分析

非线性模型

核函数支持向量机、AdaBoost、神经网络

在线学习:每次只接收一个样本(如强化学习)

批量学习:一次接收所有数据

策略

Y 真实值 f(x) 预测值

L(Y,f(x))损失函数

广义上看,非概率模型其实就是概率为1的模型

我们定义损失在概率分布下的期望为

风险函数risk function/期望损失expected loss/损失函数的期望/泛化误差(generalization error)

R e x p ( f ) = E P [ L ( Y , f ( X ) ) ] = ∫ x × y L ( y , f ( x ) ) P ( x , y ) d x d y R_{exp}(f)=E_P[L(Y,f(X))]=\int_{x\times y}L(y,f(x))P(x,y)dxdy Rexp(f)=EP[L(Y,f(X))]=x×yL(y,f(x))P(x,y)dxdy

学习的目标:选择期望风险最小的模型

但是由于训练时,测试集是不知道的,所以联合分布P(X,Y)是不知道的,所以不能准确计算

经验风险 empirical risk/经验损失

R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) R_{emp}(f)=\frac{1}{N}\sum\limits_{i=1}^{N}L(y_i,f(x_i)) Remp(f)=N1i=1NL(yi,f(xi))

是模型关于训练样本集的平均损失(注:训练集是确定的即是非概率的)

当样本数量趋近于无穷时,经验风险趋近于期望风险

经验风险最小化ERM / 结构风险最小化SRM(正则化)

选择经验风险最小的

vs

为了防止过拟合,加上了一个正则项(惩罚项)

R s r m ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) R_{srm}(f)=\frac{1}{N}\sum\limits_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f) Rsrm(f)=N1i=1NL(yi,f(xi))+λJ(f)

模型越复杂,复杂度J(f)越大

Accuracy 准确率 + 误差 loss =1

范数相关https://blog.youkuaiyun.com/qq_37466121/article/details/87855185

通过验证集来选择模型的方法,叫做交叉验证

简单交叉验证:只划分一次

s折交叉验证s-fold cross validation:划分为s个互不相交大小相同的子集,每次选一个做验证集,其它做训练集;s种都试一下,选平均最小的

监督学习分为生成方法和判别方法

生成模型generative和判别discriminative模型

生成模型学的是联合分布P(X,Y),判别模型学的是决策函数f(x)或者条件概率分布P(Y|X)

生成模型收敛更快,判别模型直接面向问题,更加准确

accuracy:准确率

二分类的acc起始就是0-1损失函数的准确率

预测\实际
TP FP
FN TN

在这里插入图片描述

precision:精确率

T P T P + F P TP\over TP+FP

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值