1. 统计学习的方法是基于数据构建统计模型从而对数据进行预测与分析。统计学习由监督学习,非监督学习,半监督学习和强化学习等组成。
2. 输入变量和输出变量都是连续变量,称为回归问题;输出变量为有限个离散变量的预测问题为分类问题;
输入变量和输出变量均为变量序列的预测问题称为标注问题。
3. 统计学习常用的损失函数 0-1损失函数,平方损失函数,绝对损失函数,对数损失函数;
大数定律:概率是频率的稳定值,频率依概率收敛于概率。强大数定律:依概率1收敛;弱大数定律:依概率收敛。
中心极限定理是说:样本的平均值约等于总体的平均值;
不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。中心极限定理的作用:在没有办法得到总体全部数据的情况下,我们可以用样本来估计总体;根据总体的平均值和标准差,判断某个样本是否属于总体
4. 正则化项一般是模型复杂度的单调递增函数,如模型参数向量的范数。
奥卡姆剃刀原理:如无必要,勿增实体。
5.交叉验证:简单交叉验证,S-折交叉验证,留一交叉验证。
6. 生成模型:学习得到联合概率P(X,Y),然后求条件概率。
优点:收敛速度快,能应付存在隐变量的情况。缺点:需要更多样本,判别模型效果更好些。
代表:朴素贝叶斯,混合高斯模型,隐马尔可夫模型
判别模型:学习得到条件概率分布P(Y|X),即在特征X出现的情况下标记Y出现的概率。
优点:需要样本少,准确率高,不需要求解条件概率,允许对输入进行抽象,降维等。缺点:没有生成模型的那些优点
代表:感知机,KNN,决策树,逻辑回归,最大熵模型,支持向量机,boosting方法,条件随机场,CNN
数据要求:生成模型需要的数据量比较大,能够较好地估计概率密度;而判别模型对数据样本量的要求没有那么多。
二分类的常见评价指标:精确率和召回率。F1是精确率和召回率的调和平均。