@TOC
(一)统计学习方法–概论
教材:《统计学习方法》–李航
推荐第一章最后看或者粗略看,后续有需要再详细学习。
主要内容: 对第一章主要概念进行总结
统计学习
统计学习:基于数据构建概率统计模型并运用模型对数据进行预测与分析
方法
主要由监督学习、非监督学习、半监督学习和强化学习等组成
本教材主要研究监督学习
监督学习
监督学习可以简单理解为模型在人工标注的数据集下进行训练学习,即有人告诉你什么是对的,什么是错的,依照这些经验来进行学习,最后依靠自己去判断新的未知的内容中什么是对的,什么是错的。
基本概念
输入空间:输入所有可能取值的集合
输出空间:输出所有可能取值的集合
特征空间:由特征向量组成的空间
特征向量:由特征构成的向量
特征可以简单理解为判断一个物体种类的关键属性,比如一个苹果,它的颜色,形状和口感等都能作为一个特征来判断某个物体到底是不是苹果。
输入/输出变量一般用大写字母表示,它们取得的实际的值用小写字母表示。
x ( i ) x^{(i)} x(i)表示 x x x的第 i i i个特征, x i x_i xi则表示 x x x的多个输入变量中的第 i i i个。
训练集:由 N N N个输入输出对组成
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x N , y N ) } T=\{ (x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\} T={(x1,y1),(x2,y2),…,(xN,yN)}
样本(点):输入输出对
联合分布概率:两个及以上随机变量组成的随机变量的概率分布
假设空间:也就是可供选择使用的模型的集合
统计学习三要素
模型
有条件概率模型和非条件概率模型
策略
按照什么样的准则学习或选择最优的模型
损失函数:度量模型一次预测的好坏
风险函数:度量平均意义下模型预测的好坏
算法
学习模型的具体计算方法
生成模型与判别模型
生成模型可以理解为输入与输出关系有显式的映射关系(一般是连续的),例如朴素贝叶斯和隐马尔可夫模型
判别模型输出更倾向于分类,是或否,好与坏等。如k近邻,感知机,决策树,logistic回归,最大熵模型,支持向量机,提升方法和条件随机场等。
监督学习解决的问题
分类问题
方法:k近邻,感知机,朴素贝叶斯,决策树,决策列表,logistic回归,支持向量机,提升方法,贝叶斯网络,神经网络,winnow等。
标注问题
方法:隐马尔可夫,条件随机场。
回归问题
学习输入与输出的关系,根据测试输入预测后续输出。