机器学习：数据集和机器学习导论

最新推荐文章于 2024-06-18 08:08:34 发布

原创最新推荐文章于 2024-06-18 08:08:34 发布 · 744 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

本文介绍了机器学习中的数据集概念，包括样本、特征和标签，以及如何评估二分类问题。讨论了ROC曲线和AUC值在模型评估中的作用。此外，概述了机器学习的基本框架、分类方法，特别探讨了过拟合和欠拟合的解决方案以及交叉验证的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第一部分：数据集

一.常用概念

每行叫做样本或实例，每列(除最后一列)叫做特征或属性，最后一列为标签列，表示样本所属类别；
属性(特征)空间----由特征张成空间的维度；
特征或属性向量----组成特征或属性空间中的样本点(行)；
特征或属性值----组成特征向量中的值；
泛化误差----学习器在新的样本上的误差。
如果数据非数字，需要通过labelen-coder标签编码或onehot-encoder编码(只有一位为1)转换为数据型变量。

二.对二分类问题进行评价

绝对值误差函数；平方误差函数；训练误差；测试误差；泛化误差；矩阵。
矩阵：
在这里插入图片描述
1)准确率Accuracy=(TP+TN)/all
2)精确率Precision=TP/(TP+FP)
3)召回率=真正率TPR(True Positive Rate)=TP/(TP+FN)
4)假正率FPR(False Positive Rate)=FP/(FP+TN)
5)F1-score(精确率和召回率的调和平均)=2/(1/pre+1/recall)=2prerecall/(pre+recall)
6)ROC(受试者工作曲线)曲线：AUC(Area Under Cruve)值

三.模型评估中的ROC曲线和AUC值

ROC曲线：以假正率FPR为横轴，真正率TPR(召回率)为纵轴，得到ROC空间。对于输入值x会得到输出结果y，当给定不同的划分阈值时，得到不同的FPR和TFP，可以得到一条关于不同阈值的FPR-TPR曲线，由于TPR越高越好，FPR越低越好，因此曲线上的点越偏向于左上角(0,1)越好，右下角(1,0)最差，对角线上的点相当于随机预测。
在这里插入图片描述
AUC：由于ROC曲线距离左上角越近越好，因此可以用ROC曲线下的面积衡量分类器性能的好坏。AUC值为ROC曲线所覆盖的区域面积，显然，AUC越大，分类器分类效果越好。AUC=1是完美分类器；0.5<AUC<1，优于随机猜测；
注：ROC与AUC更多可以参考https://blog.youkuaiyun.com/yangzishiw/article/details/95613257

第二部分：机器学习

一.处理问题框架和三要素

1.处理问题框架
1)数据集划分为训练集和测试集；
2)通过训练集训练模型；
3)通过测试集测试模型，给出评价指标。
2.三要素：机器学习=数据+策略+算法
数据----当前所拥有的样本等
策略----使用损失函数度量模型的好坏，例：0、1损失函数；平方/绝对损失函数；对数损失函数等
算法----求解最优化问题的方法

二.机器学习分类

1.监督学习：训练数据集中的每个样本均有一个已知的标签
根据是否连续性预测分为：
1)离散值预测----分类问题，如决策树、KNN、SVM、贝叶斯、逻辑回归等；
2)连续值预测----回归问题，如线性回归、Lasso回归、Ridge回归等。

2.非监督学习：数据集中的每个样本没有标签
1)聚类：根据特征相似性和相异性进行分类；
2)特征降维：根据算法将高维特征降低到低维特征，不具备可解析性，一定程度上代表了高维特征的特点，与特征选择提取不同。

3.半监督学习：数据集中部分有标签，部分无标签
1)主动学习：通过专家主动对无标签数据进行预测，给出标签值；
2)纯半监督学习：先通过聚类算法分类，然后少数服从多数，将未标记的样本分到当前类的标签，然后训练模型；
3)直推学习：将无标签样本看做测试样本并进行预测；

4.强化学习：解决连续决策问题
强化学习介于监督学习与无监督学习之间，是学习器不断与环境进行交互，并进行自身完善的过程。

5.迁移学习：相关联领域模型的借鉴
可以解决小数据集和个性化的问题，都可以借鉴相关联的大数据模型，并根据相应特点进行预测。

6.深度学习(特征)+强化学习(连续决策)+迁移学习(模型适应性)

三.车牌识别经典案例

1.将图片灰度化与二值化；
2.去噪，然后切割成一个一个的字符；
3.提取每一个字符的特征，生成特征矢量或特征矩阵，将32x32矩阵转换成1x1024的特征向量；
4.分类与学习。将特征矢量或特征矩阵与样本库进行比对，挑选出相似的那类样本，将这类样本的值作为输出结果。

四.泛化误差

1.机器学习模型训练目标----具有好的泛化能力，即模型不但在训练集上表现好，对于新数据的适应能力也应该很好。
2.泛化能力的表现：过拟合与欠拟合
1)过拟合----模型在训练数据上表现良好，在未知数据或者测试集上表现差
产生原因：模型过于简单
解决方法：
(1)添加其他特征项：因为特征项不够而导致欠拟合，可以添加模型特征项的个数，最高阶数不变;
(2)添加多项式特征阶数：可以在线性模型中通过添加二次或三次项使得模型的泛化能力更强，即增加模型多项式的次数；
(3)减少正则化参数，正则化的目的是用来防止过拟合的，但是现在模型出现了欠拟合，需要减少正则化参数。
2)欠拟合----模型在训练数据和未知数据上表现都很差
产生原因：模型过于复杂、数据不纯、训练数据太少等
解决方法：
(1)重新清洗数据；
(2)增大训练的数据量；
(3)采用正则化方法对参数施加惩罚：常用的有L1正则和L2正则；
(4)采用dropout方法，即采用随机采样的方法训练模型，常用于神经网络算法中。

五.泛化性能中的风险评估

1.期望风险
对于一个训练模型，如果输入X和输出Y遵循联合分布P(X,Y)，则可以得到损失函数的期望，成为期望风险或期望损失。
2.经验风险
模型关于训练数据集的平均损失称为经验风险(empirical risk)，根据大数定律，当样本容量N趋于无穷时，经验风险趋于期望风险。对于条件概率分布，可用极大似然估计进行经验风险最小化。
3.结构风险
样本容量较小时，经验风险最小化易产生过拟合，在经验风险上加上表示模型复杂度的正则化项，就是结构风险。结构风险小的模型往往有较好的效果。
4.正则化
正则化项表示模型的复杂度，L1正则----w的1范数，L2正则----w的2范数，其中w代表权重。

六.交叉验证

1.简单交叉验证----将数据集进行划分，一部分用于训练模型，一部分用于测试。
2.k折交叉验证----将数据集进行k等份划分，轮流取其中的一份作为测试集，其余作为训练集，得到k个模型，找到最优模型，即泛化性能最优模型的超参值。
3.留一验证----k折交叉验证的特殊情况，将数据集划分的数量等于样本数（k=n），每次只有一个样本用于测试，数据集非常小时，建议用此方法