机器学习--第四节课-优快云博客

本文链接：https://blog.youkuaiyun.com/m0_73872315/article/details/136886120

本文详细介绍了机器学习中的分类、回归和聚类任务的区别，强调了选择模型时对Accuracy和Error的理解，特别是泛化误差的概念。文章还讨论了Holdout法、交叉验证、自助法等数据分割方法，并涉及查全率和查准率在模型评估中的应用，以及如何在两者间找到平衡。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

老师现在讲的是....好吧我在发呆,总之有监督和无监督的区别在于标签的有无!最常见的两个任务是回归和分类

正文

今天主要是进行一些术语的讲解,机器学习是离不开数据的,数据集,样本,属性,特征,所有属性形成的集合就叫作属性空间或者特征空间,所以每一个样本可以称之为一个特征向量.

训练集和测试集,前者有标签后者没有标签,grond-truth最好别翻译

对于分类和回归任务以及聚类任务的区别,分类、回归和聚类任务是机器学习中的三种常见任务，他们在目标上有所不同： 1. 分类任务（Classification）: 分类任务涉及到预测一个目标变量的类别或标签。比如垃圾邮件识别就是一个二分类任务，我们的目标是判断每一封邮件是不是垃圾邮件。分类任务的标签是离散的，例如预测一个人是否患有糖尿病或者预测明天是否会下雨。 2. 回归任务（Regression）: 回归任务的目标是预测一个连续的数值。例如，根据房子的各种特征（比如面积，位置，年龄等）预测房价，或者预测一个公司的未来销售额，或者预测明天的气温具体是多少度。这些任务的标签是连续的。 3. 聚类任务（Clustering）: 聚类任务是无监督学习的一种。它试图将数据集根据某种相似度或距离度量标准，分成几组或几类。因为是无监督学习，所以我们通常没有预设的标签，目标就是找到数据的内在结构。例如，你可能有一大堆客户数据，你可以使用聚类算法将客户分组，这样你可以更好地理解你的客户群体。虽然这三种任务有所不同，但也有很多共同点。例如，他们都需要好的特征选择和数据预处理步骤。同时，许多算法和模型可以在不同的任务中使用，只需要一些小的调整。

然后是重点:

怎么选择模型

Accuracy&&Error

error rate

Training error/Epirical error 训练/经验误差

Testing error

Generaliztion error 泛化误差:

泛化误差（Generalization Error）是衡量一个机器学习模型对未见过的新数据的预测能力的一个重要指标。

一般来说，我们使用一部分数据（通常称为训练集）来训练模型，然后使用另一部分数据（通常称为测试集）来测试模型的性能。但是，我们真正关心的是模型对于从同一个分布中抽取的新数据的预测能力，这就是所谓的泛化能力。

泛化误差可以被认为是模型预测的"预期误差"，即在所有可能的新样本上的平均误差。

更具体地，泛化误差通常可以分解为三个部分：

偏差（Bias）: 这反映了模型的假设与真实情况之间的差距。例如，如果我们试图使用一个线性模型来适应非线性数据，那么模型的偏差就会高。
方差（Variance）: 这反映了模型对于训练集的变化的敏感性。如果模型非常复杂（例如高阶多项式模型），那么它可能在训练集上表现得非常好，但是对于新的数据，它的性能可能会下降，这被称为过拟合。
噪声（Irreducible Error）: 这代表了由于数据本身的噪声造成的误差。这部分误差是无法避免的。

理想的情况是找到偏差和方差的良好折中，从而达到最小的泛化误差。这通常通过正则化、集成方法、交叉验证等技术来实现。

数据分开的办法:

Hold out法(流出法)

cross validation(交叉验证法)

N-fold Cross Validatiion

留一法:就留一个测试,相当耗时

bootstrappping 自助法

1. Hold out法（流出法）： Hold Out法也称为留出法，是最简单也最直接的一种模型验证方法。通常将原始数据安按比例分为两组，一组用于训练模型，另一组用于验证或测试模型。一般按70%的数据作为训练集，用30%的数据作为测试集。优点是操作简单快速；不足则是结果往往对数据划分的方式有较大依赖性。

2. Cross Validation（交叉验证法）：交叉验证法是另一种常用的模型验证方法。将原始数据分为K组（也称为K-fold，如10-fold），取其中一组作为测试集，余下的K-1组作为训练集，进行训练和验证。重复K次后，将K次的平均结果作为最终结果。这种方法可以避免因数据划分的偶然性带来的误差。优点是相较于hold out法，结果更具有参考性而且泛化能力更强；缺点则是计算复杂度更高。

3. N-fold Cross Validation: N-fold cross validation是交叉验证法的一种，其中N取决于我们将数据集划分为几个部分。例如，如果我们将数据分为10个部分，那我们就进行10-fold cross validation。每次我们留一个部分作为验证集，其余部分作为训练集。这种方法的好处是我们可以使用数据集中的每一个样本进行训练和测试，这有助于提高模型的性能和稳定性，但相应的计算成本较高。5次110折要计算51次

4.引导法或自助法（Bootstrap）是一种由Bradley Efron于1979年提出的，用电脑随机抽样技术从样本中重复抽样以进行统计推断的方法。其基本思想是通过对原始数据进行有放回的抽样生成一个和原始数据规模一样的新数据集，然后在这个新数据集上做统计推断。自助法的步骤一般如下： 1. 在原始数据集中随机选取一个样本(有放回)，重复这个过程n次，得到一个bootstrap样本集； 2. 在bootstrap样本集上进行分析（例如求均值、求标准误...） 3. 重复以上两步，生成多个bootstrap样本集并进行分析； 4. 对上步生成的所有结果进行汇总（一般采取计算平均值和标准差的方式）引导法的主要优点是只需简单的随机抽样和重新抽样，就可以正确地描绘出总体参数的抽样分布，使得复杂的假设检验和置信区间估计变得简单。当样本量较少或者不能假设数据符合某种分布时，自助法是对推断统计的重要补充。然而，虽然自助法是一种强大的工具，但当数据集呈现出时间序列或者其他复杂关系，或者数据中的某个值出现的频率非常高，使用自助法需要更加小心，因为此时简单的随机抽样可能导致误导性的结果。

parame tuning

查全率,查准率

查全率和查准率是评价一个分类模型好坏的两个重要指标。查全率（Recall）反映了模型找出正样本的能力，而查准率（Precision）反映了模型预测为正的样本中实际是正样本的比例。在不同的分类任务中，我们对这两个指标的重视程度不一。查全率更重要的情况：在一些需要尽量避免漏判的场景中，我们通常重视查全率。例如，疾病筛查中，我们更希望所有的病患都能被检测出，因此查全率更重要。再例如，垃圾邮件过滤，我们宁愿将一些正常邮件误判为垃圾邮件（降低查准率），也不愿意错过任何一封垃圾邮件（提高查全率）。查准率更重要的情况：在某些对误报率要求较高的情况下，查准率会更重要。例如，股市预测中，假设股价即将大幅上涨，这导致投资者买入，但实际上股价并未上涨，这样的结果可能造成较大的经济损失。因此，在股市预测中，我们更希望找到的“即将上涨”的预测是准确的，即查准率更重要。另外，一般来说，查全率和查准率是一个权衡的过程，查全率高则查准率低，查准率高则查全率低。这是因为提高查准率就意味着模型更严格，这样可能会漏掉一些正样本，查全率就可能较低；提高查全率就意味着模型更宽松，这样可能会将更多负样本判断为正样本，查准率就可能较低。在实际问题中，根据问题的需求和特点，会根据情况选取更适合的模型和阈值，以达成查全率和查准率之间的最佳平衡。

F1 score