机器学习:数据集和机器学习导论

本文介绍了机器学习中的数据集概念,包括样本、特征和标签,以及如何评估二分类问题。讨论了ROC曲线和AUC值在模型评估中的作用。此外,概述了机器学习的基本框架、分类方法,特别探讨了过拟合和欠拟合的解决方案以及交叉验证的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第一部分:数据集

一.常用概念

每行叫做样本或实例,每列(除最后一列)叫做特征或属性,最后一列为标签列,表示样本所属类别;
属性(特征)空间----由特征张成空间的维度;
特征或属性向量----组成特征或属性空间中的样本点(行);
特征或属性值----组成特征向量中的值;
泛化误差----学习器在新的样本上的误差。
如果数据非数字,需要通过labelen-coder标签编码或onehot-encoder编码(只有一位为1)转换为数据型变量。

二.对二分类问题进行评价

绝对值误差函数;平方误差函数;训练误差;测试误差;泛化误差;矩阵。
矩阵:
在这里插入图片描述
1)准确率Accuracy=(TP+TN)/all
2)精确率Precision=TP/(TP+FP)
3)召回率=真正率TPR(True Positive Rate)=TP/(TP+FN)
4)假正率FPR(False Positive Rate)=FP/(FP+TN)
5)F1-score(精确率和召回率的调和平均)=2/(1/pre+1/recall)=2prerecall/(pre+recall)
6)ROC(受试者工作曲线)曲线:AUC(Area Under Cruve)值

三.模型评估中的ROC曲线和AUC值

ROC曲线:以假正率FPR为横轴,真正率TPR(召回率)为纵轴,得到ROC空间。对于输入值x会得到输出结果y,当给定不同的划分阈值时,得到不同的FPR和TFP,可以得到一条关于不同阈值的FPR-TPR曲线,由于TPR越高越好,FPR越低越好,因此曲线上的点越偏向于左上角(0,1)越好,右下角(1,0)最差,对角线上的点相当于随机预测。
在这里插入图片描述
AUC:由于ROC曲线距离左上角越近越好,因此可以用ROC曲线下的面积衡量分类器性能的好坏。AUC值为ROC曲线所覆盖的区域面积,显然,AUC越大,分类器分类效果越好。AUC=1是完美分类器;0.5<AUC<1,优于随机猜测;
注:ROC与AUC更多可以参考https://blog.youkuaiyun.com/yangzishiw/article/details/95613257

第二部分:机器学习

一.处理问题框架和三要素

1.处理问题框架
1)数据集划分为训练集和测试集;
2)通过训练集训练模型;
3)通过测试集测试模型,给出评价指标。
2.三要素:机器学习=数据+策略+算法
数据----当前所拥有的样本等
策略----使用损失函数度量模型的好坏,例:0、1损失函数;平方/绝对损失函数;对数损失函数等
算法----求解最优化问题的方法

二.机器学习分类

1.监督学习:训练数据集中的每个样本均有一个已知的标签
根据是否连续性预测分为:
1)离散值预测----分类问题,如决策树、KNN、SVM、贝叶斯、逻辑回归等;
2)连续值预测----回归问题,如线性回归、Lasso回归、Ridge回归等。

2.非监督学习:数据集中的每个样本没有标签
1)聚类:根据特征相似性和相异性进行分类;
2)特征降维:根据算法将高维特征降低到低维特征,不具备可解析性,一定程度上代表了高维特征的特点,与特征选择提取不同。

3.半监督学习:数据集中部分有标签,部分无标签
1)主动学习:通过专家主动对无标签数据进行预测,给出标签值;
2)纯半监督学习:先通过聚类算法分类,然后少数服从多数,将未标记的样本分到当前类的标签,然后训练模型;
3)直推学习:将无标签样本看做测试样本并进行预测;

4.强化学习:解决连续决策问题
强化学习介于监督学习与无监督学习之间,是学习器不断与环境进行交互,并进行自身完善的过程。

5.迁移学习:相关联领域模型的借鉴
可以解决小数据集和个性化的问题,都可以借鉴相关联的大数据模型,并根据相应特点进行预测。

6.深度学习(特征)+强化学习(连续决策)+迁移学习(模型适应性)

三.车牌识别经典案例

1.将图片灰度化与二值化;
2.去噪,然后切割成一个一个的字符;
3.提取每一个字符的特征,生成特征矢量或特征矩阵,将32x32矩阵转换成1x1024的特征向量;
4.分类与学习。将特征矢量或特征矩阵与样本库进行比对,挑选出相似的那类样本,将这类样本的值作为输出结果。

四.泛化误差

1.机器学习模型训练目标----具有好的泛化能力,即模型不但在训练集上表现好,对于新数据的适应能力也应该很好。
2.泛化能力的表现:过拟合与欠拟合
1)过拟合----模型在训练数据上表现良好,在未知数据或者测试集上表现差
产生原因:模型过于简单
解决方法
(1)添加其他特征项:因为特征项不够而导致欠拟合,可以添加模型特征项的个数,最高阶数不变;
(2)添加多项式特征阶数:可以在线性模型中通过添加二次或三次项使得模型的泛化能力更强,即增加模型多项式的次数;
(3)减少正则化参数,正则化的目的是用来防止过拟合的,但是现在模型出现了欠拟合,需要减少正则化参数。
2)欠拟合----模型在训练数据和未知数据上表现都很差
产生原因:模型过于复杂、数据不纯、训练数据太少等
解决方法
(1)重新清洗数据;
(2)增大训练的数据量;
(3)采用正则化方法对参数施加惩罚:常用的有L1正则和L2正则;
(4)采用dropout方法,即采用随机采样的方法训练模型,常用于神经网络算法中。

五.泛化性能中的风险评估

1.期望风险
对于一个训练模型,如果输入X和输出Y遵循联合分布P(X,Y),则可以得到损失函数的期望,成为期望风险或期望损失。
2.经验风险
模型关于训练数据集的平均损失称为经验风险(empirical risk),根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险。对于条件概率分布,可用极大似然估计进行经验风险最小化。
3.结构风险
样本容量较小时,经验风险最小化易产生过拟合,在经验风险上加上表示模型复杂度的正则化项,就是结构风险。结构风险小的模型往往有较好的效果。
4.正则化
正则化项表示模型的复杂度,L1正则----w的1范数,L2正则----w的2范数,其中w代表权重。

六.交叉验证

1.简单交叉验证----将数据集进行划分,一部分用于训练模型,一部分用于测试。
2.k折交叉验证----将数据集进行k等份划分,轮流取其中的一份作为测试集,其余作为训练集,得到k个模型,找到最优模型,即泛化性能最优模型的超参值。
3.留一验证----k折交叉验证的特殊情况,将数据集划分的数量等于样本数(k=n),每次只有一个样本用于测试,数据集非常小时,建议用此方法

备注

1.参数与超参数
参数----可以通过模型训练得到
超参数----需要在模型训练之前事先指定的参数,如迭代次数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值