机器学习期末复习：揭秘那些你必须知道的题目

HaiJaine

已于 2025-01-09 16:29:40 修改

阅读量889

点赞数 21

分类专栏：笔记机器学习文章标签：机器学习人工智能

于 2024-12-25 16:27:10 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_42951763/article/details/144679471

版权

注：该版本已修改，文中涉及到西瓜数据集的例子来着西瓜书。

机器学习期末复习

自动驾驶和机器学习的关系

自动驾驶的关键问题可抽象为一个机器学习任务。以 2004 年 3 月在美国 DARPA 组织的自动驾驶车比赛为例，斯坦福大学机器学习专家 S. Thrun 的小组研制的参赛车能在复杂路况下行驶，其原理是把车载传感器接收到的信息作为输入，把方向、刹车、油门的控制行为作为输出，这体现了机器学习在自动驾驶中的应用。

自动驾驶技术需要车辆能够根据传感器获取的环境数据做出正确的驾驶决策，而机器学习技术可以让车辆通过大量的数据进行 “学习”，从而对各种路况和突发情况做出合理的反应。例如，通过对大量不同天气、路况下的图像数据进行学习，自动驾驶车辆可以识别出道路、行人、其他车辆等，并做出相应的驾驶操作。

机器学习是自动驾驶的大脑
- 自动驾驶汽车需要处理大量的数据，包括来自摄像头、雷达、激光雷达（LiDAR）等传感器的信息。这些数据需要被解释和理解，以做出驾驶决策。机器学习算法，特别是深度学习，能够从这些数据中学习模式和特征，从而识别道路、车辆、行人、交通标志等。这个过程类似于人类驾驶员通过经验学习如何驾驶。
机器学习使自动驾驶更智能
- 机器学习算法能够不断从新数据中学习，这意味着随着时间的推移，自动驾驶系统可以变得更加智能和准确。例如，通过机器学习，自动驾驶汽车可以学习在不同天气和光照条件下如何更好地识别路标，或者在复杂的交通环境中如何安全地导航。
机器学习提高了自动驾驶的可靠性
- 自动驾驶汽车需要在各种复杂和不可预测的情况下安全运行。机器学习可以帮助系统预测和响应这些情况。例如，通过分析历史数据，机器学习模型可以预测其他车辆或行人可能的行为，并提前做出反应，从而提高安全性。
机器学习促进自动驾驶的个性化
- 每辆车和每个驾驶员都是独一无二的。机器学习可以帮助自动驾驶汽车根据驾驶员的偏好和习惯进行个性化调整。例如，一些驾驶员可能更喜欢平稳的驾驶，而其他人可能更倾向于激进的驾驶风格。机器学习算法可以学习这些偏好，并相应地调整驾驶行为。
机器学习是自动驾驶技术进步的驱动力
- 随着机器学习技术的进步，自动驾驶汽车的能力也在不断提高。新的算法和模型不断被开发出来，以处理更复杂的任务，如自然语言处理（用于理解语音命令）和强化学习（用于在模拟环境中训练自动驾驶系统）。

监督学习和无监督学习

监督学习和无监督学习是机器学习中的两个重要分支，它们各自适用于不同的场景和任务。监督学习通过学习有标签的数据来预测结果，而无监督学习则在没有标签的情况下探索数据的内在结构。两者相辅相成，共同推动了机器学习技术的发展和应用。随着技术的进步，这两种学习方式也在不断融合和创新，比如半监督学习、自监督学习等新兴领域，它们结合了监督学习和无监督学习的特点，以解决更复杂的问题。

监督学习（Supervised Learning）

监督学习就像是一个学生在老师的指导下学习的过程。在这个过程中，学生（机器学习模型）会得到一系列的“例子”（训练数据），每个例子都包含了输入（比如图片、文本等）和正确的输出（标签）。模型的任务就是通过这些例子学习到一个规则，这个规则能够让它在给定新的输入时，预测出正确的输出。

特点
- 有标签的数据：监督学习使用的是标记过的训练数据，即每个训练样本都有一个对应的标签或结果。
- 预测性任务：主要用于预测或分类任务，比如识别图片中的物体、预测房价等。
- 模型训练：通过最小化模型预测和实际标签之间的差异来进行训练。
- 评估标准：通常使用准确率、召回率等指标来评估模型性能。
例子
- 分类问题：垃圾邮件检测（将邮件分为垃圾邮件和非垃圾邮件）。
- 回归问题：房价预测（根据房屋特征预测价格）。

无监督学习（Unsupervised Learning）

无监督学习更像是一个探索性的学习过程。在这种情况下，模型没有老师给出的正确答案，它需要自己从数据中发现模式和结构。无监督学习通常用于那些我们没有明确输出标签的数据集，或者我们想要探索数据内在结构的情况。

特点
- 无标签的数据：无监督学习使用未标记的数据，模型需要自行发现数据中的模式。
- 探索性任务：主要用于发现数据的内在结构，比如聚类、降维等。
- 模型训练：通过优化某种目标函数（比如最小化重构误差）来进行训练。
- 评估标准：评估较为复杂，可能包括聚类质量指标、降维后的数据重构误差等。
例子
- 聚类问题：客户细分（将客户根据购买习惯分为不同的群体）。
- 降维问题：PCA（主成分分析），用于减少数据的维度同时保留最重要的信息。

比较与联系

目标不同：监督学习的目标是预测或分类，而无监督学习的目标是探索数据的内在结构。
数据需求不同：监督学习需要有标签的数据，无监督学习则不需要。
应用场景不同：监督学习适用于有明确输出的任务，无监督学习适用于探索数据结构或特征学习。
模型复杂度：无监督学习通常比监督学习更复杂，因为它们需要在没有明确指导的情况下发现数据的模式。

交叉验证及其应用

什么是交叉验证

交叉验证（Cross-validation）是一种统计分析方法，用于评估机器学习模型的性能。它的核心思想是将原始数据集分成几个互不重叠的子集，每次使用其中的一部分作为测试集，而剩余的部分作为训练集。这个过程会重复多次，每次选择不同的子集作为测试集，从而确保每个数据点都被用作训练和测试。

交叉验证的作用

评估模型性能
- 目的：交叉验证的主要目的是提供一个对模型泛化能力的可靠估计。泛化能力指的是模型在新、未见过的数据上的表现能力。
- 方法：通过将数据集分成多个子集，交叉验证允许每个子集都有机会作为测试集，而其他子集作为训练集。这样可以多次评估模型性能，并减少因数据划分方式不同而带来的偏差。
- 重要性：这种方法提供了一个更全面的性能评估，因为它考虑了模型在不同数据子集上的表现，而不是单一的测试集。
减少过拟合
- 过拟合定义：过拟合是指模型在训练数据上表现很好，但在新数据上表现差，通常是因为模型过于复杂，学习到了训练数据中的噪声。
- 交叉验证与过拟合：通过在多个数据子集上评估模型，交叉验证可以帮助识别过拟合。如果模型在某些子集上表现很好，而在其他子集上表现差，这可能是过拟合的迹象。
- 实际应用：通过交叉验证，我们可以调整模型复杂度或使用正则化技术来减少过拟合，并评估这些调整的效果。
避免数据浪费
- 数据划分问题：在样本数量有限的情况下，传统的数据划分可能导致训练集或测试集过小，影响模型训练和评估。
- 交叉验证的优势：交叉验证通过在多个子集上重复训练和测试，确保所有数据都被充分利用，避免了数据浪费。
- 效果：这种方法特别适合小样本数据集，因为它允许我们多次使用所有数据进行训练和测试，从而得到更可靠的模型性能评估。
提高模型稳定性
- 模型稳定性定义：模型稳定性指的是模型在不同数据集上的表现是否一致。
- 交叉验证与稳定性：通过在多个数据子集上重复训练和测试，交叉验证可以评估模型的稳定性。如果模型在每一折交叉验证中都表现良好，那么我们可以认为模型是稳定的。
- 重要性：一个稳定的模型更有可能在新数据上表现良好，因为它不会因数据的微小变化而有大的性能波动。

交叉验证的实现方式

K折交叉验证（K-Fold Cross-Validation）：
- K折交叉验证是最常见的交叉验证形式之一。在这种方法中，整个数据集被随机分成K个大小相等的子集（或称为“折”）。在每次迭代中，一个子集被保留作为测试集，而剩下的K-1个子集被用来训练模型。这个过程重复K次，每次选择不同的子集作为测试集，以确保每个子集都有机会被用作测试集。最终的性能评估是K次迭代结果的平均值。
留一交叉验证（Leave-One-Out Cross-Validation, LOOCV）：
- 留一交叉验证是一种特殊形式的K折交叉验证，其中K等于数据集中的样本数。在每次迭代中，只留下一个样本作为测试集，其余所有样本用于训练模型。由于每次只留下一个样本，这种方法在样本数量较多时可能会非常耗时，但它可以提供非常稳健的性能估计。
重复交叉验证（Repeated Cross-Validation）：
- 重复交叉验证是一种增强的交叉验证方法，它涉及多次执行交叉验证过程，每次使用不同的数据分割。这种方法可以减少由于数据随机分割导致的性能评估的方差。在重复交叉验证中，整个数据集会被多次随机分割成训练集和测试集，每次分割后都执行一次完整的交叉验证过程，最后取所有交叉验证结果的平均值作为最终的性能评估。

交叉验证的应用

医疗诊断：
- 在医疗领域，交叉验证被用来评估模型的诊断准确性，尤其是在癌症早期筛查等任务中。通过K折交叉验证，可以在未见过的新数据集上有效评估模型性能，优化模型选择和调参过程，提高模型的泛化能力。
金融风控：
- 在金融风控领域，交叉验证帮助金融机构评估模型的风险预测能力，降低风险。例如，在信用评分任务中，使用分层交叉验证可以确保每个子集中各类别的比例一致，更准确地评估模型性能。
自然语言处理（NLP）：
- 在NLP领域，交叉验证被用来评估模型性能，提高模型的泛化能力。例如，在情感分析任务中，使用K折交叉验证可以评估模型在未见过的新数据集上的表现，优化模型选择和调参过程。

信息增益

信息增益（Information Gain）是决策树算法中用于特征选择的一个重要概念。它基于信息论中的熵（Entropy）的概念，用来衡量一个特征对于分类的贡献大小。信息增益越大，表示该特征对于分类越有帮助。

熵是信息论中用来衡量信息量的一个概念，其计算公式为：

$\text{E}(S) = -\sum_{i=1}^{n} p_i \log_2 p_i$

其中：

$p_i$ 是数据集中第 $i$ 类样本在样本集所占比例。（简单来说就是看标签数据分几类，分别对每一类计算占比，然后累加，最后取负值）
$n$ 是数据集中类别的总数。
$E (S)$ 值越小，样本纯度越高。

条件熵是在已知某个特征的值的情况下，数据集的熵。其计算公式为：

$\text{E}(S, A) = \sum_{j=1}^{m} p_j \text{E}(S_j)$

其中：

$p_j$ 是特征 $A$ 取第 $j$ 个值的概率。
$S_j$ 是在特征 $A$ 取第 $j$ 个值时，数据集的子集。
$m$ 是特征 $A$ 可能取值的总数。

信息增益的计算公式如下：

$\text{IG} = \text{E}(S) - \text{E}(S, A)$

其中：

$\text{E}(S)$ 是整个数据集 $S$ 的熵，表示数据集的不纯度或混乱程度。
$\text{E}(S, A)$ 是在特征 $A$ 的条件下，数据集 $S$ 的条件熵，表示在已知特征 $A$ 的值的情况下，数据集的不纯度。

信息增益的例子

求解思路：

计算整个数据集的熵 $\text{E}(S)$ 。

对于每个特征 $A$ ，计算在该特征下的条件熵 $\text{E}(S, A)$ 。

计算每个特征的信息增益 $\text{IG} = \text{E}(S) - \text{E}(S, A)$ 。

选择信息增益最大的特征作为分割数据集的特征。

假设我们有一个关于西瓜的数据集，其中包含七个特征：色泽（青绿、乌黑、浅白）、根蒂（蜷缩、稍蜷、硬挺）、敲声（浊响、沉闷、清脆）、纹理（清晰、稍糊、模糊）、脐部（凹陷、稍凹、平坦）、触感（硬滑、软粘），以及一个目标变量好瓜（是、否）。根据这些特征来预测西瓜是否为好瓜。

数据集

编号	色泽	根蒂	敲声	纹理	脐部	触感	好瓜
1	青绿	蜷缩	浊响	清晰	凹陷	硬滑	是
2	乌黑	蜷缩	沉闷	清晰	凹陷	硬滑	是
3	乌黑	蜷缩	浊响	清晰	凹陷	硬滑	是
4	青绿	蜷缩	沉闷	清晰	凹陷	硬滑	是
5	浅白	蜷缩	浊响	清晰	凹陷	硬滑	是
6	青绿	稍蜷	浊响	清晰	稍凹	软粘	是
7	乌黑	稍蜷	浊响	稍糊	稍凹	软粘	是
8	乌黑	稍蜷	浊响	清晰	稍凹	硬滑	是
9	乌黑	稍蜷	沉闷	稍糊	稍凹	硬滑	否
10	青绿	硬挺	清脆	清晰	平坦	软粘	否
11	浅白	硬挺	清脆	模糊	平坦	硬滑	否
12	浅白	蜷缩	浊响	模糊	平坦	软粘	否
13	青绿	稍蜷	浊响	稍糊	凹陷	硬滑	否
14	浅白	稍蜷	沉闷	稍糊	凹陷	硬滑	否
15	乌黑	稍蜷	浊响	清晰	稍凹	软粘	否
16	浅白	蜷缩	浊响	模糊	平坦	硬滑	否
17	青绿	蜷缩	沉闷	稍糊	稍凹	硬滑	否

计算步骤

一、计算总熵

总共有 17 条数据，其中：

好瓜 (是)：8 条
坏瓜 (否)：9 条

好瓜和坏瓜的比例分别是：
$p_{\text{好瓜}} = \frac{8}{17}, \quad p_{\text{坏瓜}} = \frac{9}{17}$

代入公式：
$\left( \frac{8}{17} \log_2 \frac{8}{17} + \frac{9}{17} \log_2 \frac{9}{17} \right)$

计算结果：
$\approx - \left( 0.470 \cdot (-1.089) + 0.530 \cdot (-0.918) \right) = 0.997$

二、针对每个特征计算条件熵和信息增益

特征1：色泽

色泽的取值有：青绿、乌黑、浅白，分布如下：

青绿：6 条（好瓜 3，坏瓜 3）
乌黑：6 条（好瓜 4，坏瓜 2）
浅白：5 条（好瓜 1，坏瓜 4）

分别计算条件熵 $E(\text{色泽})$ ：
$E(\text{青绿}) = - \left( \frac{3}{6} \log_2 \frac{3}{6} + \frac{3}{6} \log_2 \frac{3}{6} \right) = 1.000$
$E(\text{乌黑}) = - \left( \frac{4}{6} \log_2 \frac{4}{6} + \frac{2}{6} \log_2 \frac{2}{6} \right) \approx 0.918$
$E(\text{浅白}) = - \left( \frac{1}{5} \log_2 \frac{1}{5} + \frac{4}{5} \log_2 \frac{4}{5} \right) \approx 0.722$

加权求和：
$E(\text{色泽}) = \frac{6}{17} \cdot 1.000 + \frac{6}{17} \cdot 0.918 + \frac{5}{17} \cdot 0.722 \approx 0.886$

信息增益：
$IG(\text{色泽}) = E(S) - E(\text{色泽}) = 0.997 - 0.886 = 0.111$

特征2：根蒂

根蒂的取值有：蜷缩、稍蜷、硬挺，分布如下：

蜷缩：8 条（好瓜 6，坏瓜 2）
稍蜷：6 条（好瓜 2，坏瓜 4）
硬挺：3 条（好瓜 0，坏瓜 3）

分别计算条件熵 $E(\text{根蒂})$ ：
$E(\text{蜷缩}) = - \left( \frac{6}{8} \log_2 \frac{6}{8} + \frac{2}{8} \log_2 \frac{2}{8} \right) \approx 0.811$
$E(\text{稍蜷}) = - \left( \frac{2}{6} \log_2 \frac{2}{6} + \frac{4}{6} \log_2 \frac{4}{6} \right) \approx 0.918$
$E(\text{硬挺}) = - \left( \frac{0}{3} \log_2 \frac{0}{3} + \frac{3}{3} \log_2 \frac{3}{3} \right) = 0$