统计学习方法-第一章统计学习方法概论

本文深入探讨了统计学习的基本概念,包括监督学习、非监督学习、半监督学习和强化学习等方法。解析了回归、分类和标注问题的区别,介绍了常用的损失函数及大数定律、中心极限定理的应用。此外,还对比了生成模型与判别模型的特点,阐述了正则化项的作用,以及交叉验证在模型评估中的应用。

 

1. 统计学习的方法是基于数据构建统计模型从而对数据进行预测与分析。统计学习由监督学习,非监督学习,半监督学习和强化学习等组成。

2. 输入变量和输出变量都是连续变量,称为回归问题;输出变量为有限个离散变量的预测问题为分类问题;

输入变量和输出变量均为变量序列的预测问题称为标注问题。

3. 统计学习常用的损失函数 0-1损失函数,平方损失函数,绝对损失函数,对数损失函数;

大数定律:概率是频率的稳定值,频率依概率收敛于概率。强大数定律:依概率1收敛;弱大数定律:依概率收敛。

中心极限定理是说:样本的平均值约等于总体的平均值;
不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。中心极限定理的作用:在没有办法得到总体全部数据的情况下,我们可以用样本来估计总体;根据总体的平均值和标准差,判断某个样本是否属于总体

4. 正则化项一般是模型复杂度的单调递增函数,如模型参数向量的范数。

奥卡姆剃刀原理:如无必要,勿增实体。

5.交叉验证:简单交叉验证,S-折交叉验证,留一交叉验证。

6. 生成模型:学习得到联合概率P(X,Y),然后求条件概率。

优点:收敛速度快,能应付存在隐变量的情况。缺点:需要更多样本,判别模型效果更好些。

代表:朴素贝叶斯,混合高斯模型,隐马尔可夫模型

判别模型:学习得到条件概率分布P(Y|X),即在特征X出现的情况下标记Y出现的概率。

优点:需要样本少,准确率高,不需要求解条件概率,允许对输入进行抽象,降维等。缺点:没有生成模型的那些优点

代表:感知机,KNN,决策树,逻辑回归,最大熵模型,支持向量机,boosting方法,条件随机场,CNN

数据要求:生成模型需要的数据量比较大,能够较好地估计概率密度;而判别模型对数据样本量的要求没有那么多。

二分类的常见评价指标:精确率和召回率。F1是精确率和召回率的调和平均。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值