(一)统计学习方法--概论

本文介绍了统计学习方法的基础,重点关注监督学习。监督学习涉及模型在已标注数据上的训练,包括分类(如k近邻、感知机等)、标注(如隐马尔可夫、条件随机场)和回归问题。主要概念涵盖输入输出空间、特征空间、模型(如生成模型与判别模型)、策略(如损失和风险函数)及算法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

@TOC

(一)统计学习方法–概论

教材:《统计学习方法》–李航

推荐第一章最后看或者粗略看,后续有需要再详细学习。

主要内容: 对第一章主要概念进行总结

统计学习

统计学习:基于数据构建概率统计模型并运用模型对数据进行预测与分析

方法

主要由监督学习非监督学习半监督学习强化学习等组成

本教材主要研究监督学习

监督学习

监督学习可以简单理解为模型在人工标注的数据集下进行训练学习,即有人告诉你什么是对的,什么是错的,依照这些经验来进行学习,最后依靠自己去判断新的未知的内容中什么是对的,什么是错的。

基本概念

输入空间:输入所有可能取值的集合

输出空间:输出所有可能取值的集合

特征空间:由特征向量组成的空间

特征向量:由特征构成的向量

特征可以简单理解为判断一个物体种类的关键属性,比如一个苹果,它的颜色,形状和口感等都能作为一个特征来判断某个物体到底是不是苹果。

输入/输出变量一般用大写字母表示,它们取得的实际的值用小写字母表示。

x ( i ) x^{(i)} x(i)表示 x x x的第 i i i个特征, x i x_i xi则表示 x x x的多个输入变量中的第 i i i个。

训练集:由 N N N输入输出对组成

T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x N , y N ) } T=\{ (x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\} T={(x1,y1),(x2,y2),,(xN,yN)}

样本(点):输入输出对

联合分布概率:两个及以上随机变量组成的随机变量的概率分布

假设空间:也就是可供选择使用的模型的集合

统计学习三要素

模型

有条件概率模型和非条件概率模型

策略

按照什么样的准则学习或选择最优的模型

损失函数:度量模型一次预测的好坏

风险函数:度量平均意义下模型预测的好坏

算法

学习模型的具体计算方法

生成模型与判别模型

生成模型可以理解为输入与输出关系有显式的映射关系(一般是连续的),例如朴素贝叶斯隐马尔可夫模型

判别模型输出更倾向于分类,是或否,好与坏等。如k近邻,感知机,决策树,logistic回归,最大熵模型,支持向量机,提升方法和条件随机场等。

监督学习解决的问题

分类问题

方法:k近邻,感知机,朴素贝叶斯,决策树,决策列表,logistic回归,支持向量机,提升方法,贝叶斯网络,神经网络,winnow等。

标注问题

方法:隐马尔可夫,条件随机场。

回归问题

学习输入与输出的关系,根据测试输入预测后续输出。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值