一. 模型评估与模型参数选择
1. 模型评估的重要性
- 模型评估是判断模型性能的关键步骤,它帮助我们了解模型在未知数据上的表现,即泛化能力。
- 通过评估,我们可以选择最佳模型,调整超参数,防止过拟合和欠拟合。
2. 模型参数选择的方法
- 使用验证集来评估模型在新数据上的表现,并调整超参数以优化模型性能。
- 测试集用于最终评估模型,提供准确率、精确率、召回率等评估指标。
3. 数据集的划分
- 训练集、验证集和测试集的比例取决于数据集的大小和超参数的数量。
- 小规模样本集常用比例为6:2:2或8:2,大规模样本集则只需足够的验证集和测试集。
4. 过拟合与欠拟合
- 过拟合发生在模型过度适应训练数据时,导致在测试集上表现不佳。
- 欠拟合则是模型未能充分学习训练数据,两者都需要通过调整模型复杂度、增加数据量等方法来解决。
5. 模型评估与参数选择的实践
- 文章提供了数据集划分的代码示例,展示了如何在实际操作中应用这些理论。
- 课堂练习部分通过判断题和选择题的形式,加深了对模型评估和参数选择概念的理解。
二 .监督学习
1. 监督学习与无监督学习的差别
- 监督学习依赖于带有标签的训练数据集,通过学习输入与输出之间的关系来预测新数据的输出。
- 无监督学习则处理没有标签的数据集,主要用于发现数据中的潜在结构或模式。
2. 监督学习中的回归问题
- 回归问题涉及预测连续值输出,如房价预测、销售额预测等。
- 文章详细介绍了均方误差损失函数(MSE)和多元线性回归模型,以及它们在实际场景中的应用。
3. 监督学习中的分类问题
- 分类问题涉及预测离散值输出,如图像识别、疾病诊断等。
- 文章讨论了分类评估指标,包括准确率、精确率、召回率和F1分数,以及它们在不同场景下的应用和局限性。
4. 模型评估与选择
- 文章强调了模型评估的重要性,特别是在样本不平衡的情况下,准确率可能不是一个有效的评估指标。
- 精确率和召回率提供了更全面的模型性能评估,而F1分数则是这两者的调和平均数。
5. 机器学习基础知识的总结
- 文章最后总结了机器学习基础知识的重要性,强调了监督学习和无监督学习在数据集定义上的差异,以及模型评估在判断模型状态中的作用。
三.线性回归模型
1. 线性回归模型介绍
- 通过一个简单的例子,假设学生学习机器学习的时间与得分之间存在线性关系,引入了线性回归模型的概念。
- 展示了如何通过训练数据集(学生学习时间和得分)来预测学习4小时后的得分。
2. 线性回归模型原理
- 详细介绍了线性回归模型的数学表达式:𝑦 = 𝑥 ∗ 𝜔 + 𝑏,其中𝜔和𝑏是需要通过数据求解的参数。
- 解释了线性回归模型中因变量和自变量之间的线性关系,以及权重系数𝑤的作用。
3. 线性回归模型的训练方法
- 介绍了如何通过最小二乘法、梯度下降法等方法来求解线性回归模型中的参数𝜔和𝑏。
- 强调了训练过程中损失函数的重要性,以及如何通过损失函数来衡量模型预测值与真实值之间的差异。
4. 损失函数的定义与优化
- 定义了损失函数为真实值与预测值的平方差,目标是找到使得损失函数最小的𝜔值。
- 通过穷举法展示了如何计算不同𝜔值下的损失,并找到了使得平均损失最小的理想𝜔值。
5. 线性回归模型的可视化分析
- 介绍了如何使用Matplotlib库来绘制线性回归模型的损失函数图像,以便更直观地分析和优化模型。
- 详细说明了plt.plot()函数的使用方法,包括如何设置线条样式、颜色、标记等属性。
6. 线性回归模型的代码实现
- 提供了使用Python实现线性回归模型的代码示例,包括数据准备、模型定义、损失函数定义和穷举法计算损失值。
- 展示了如何通过代码来验证理论分析的结果,并进一步优化模型。