第二节 机器学习基本方法

一. 模型评估与模型参数选择

1. 模型评估的重要性

  • 模型评估是判断模型性能的关键步骤,它帮助我们了解模型在未知数据上的表现,即泛化能力。
  • 通过评估,我们可以选择最佳模型,调整超参数,防止过拟合和欠拟合。

2. 模型参数选择的方法

  • 使用验证集来评估模型在新数据上的表现,并调整超参数以优化模型性能。
  • 测试集用于最终评估模型,提供准确率、精确率、召回率等评估指标。

3. 数据集的划分

  • 训练集、验证集和测试集的比例取决于数据集的大小和超参数的数量。
  • 小规模样本集常用比例为6:2:2或8:2,大规模样本集则只需足够的验证集和测试集。

4. 过拟合与欠拟合

  • 过拟合发生在模型过度适应训练数据时,导致在测试集上表现不佳。
  • 欠拟合则是模型未能充分学习训练数据,两者都需要通过调整模型复杂度、增加数据量等方法来解决。

5. 模型评估与参数选择的实践

  • 文章提供了数据集划分的代码示例,展示了如何在实际操作中应用这些理论。
  • 课堂练习部分通过判断题和选择题的形式,加深了对模型评估和参数选择概念的理解。

二 .监督学习

1. 监督学习与无监督学习的差别

  • 监督学习依赖于带有标签的训练数据集,通过学习输入与输出之间的关系来预测新数据的输出。
  • 无监督学习则处理没有标签的数据集,主要用于发现数据中的潜在结构或模式。

2. 监督学习中的回归问题

  • 回归问题涉及预测连续值输出,如房价预测、销售额预测等。
  • 文章详细介绍了均方误差损失函数(MSE)和多元线性回归模型,以及它们在实际场景中的应用。

3. 监督学习中的分类问题

  • 分类问题涉及预测离散值输出,如图像识别、疾病诊断等。
  • 文章讨论了分类评估指标,包括准确率、精确率、召回率和F1分数,以及它们在不同场景下的应用和局限性。

4. 模型评估与选择

  • 文章强调了模型评估的重要性,特别是在样本不平衡的情况下,准确率可能不是一个有效的评估指标。
  • 精确率和召回率提供了更全面的模型性能评估,而F1分数则是这两者的调和平均数。

5. 机器学习基础知识的总结

  • 文章最后总结了机器学习基础知识的重要性,强调了监督学习和无监督学习在数据集定义上的差异,以及模型评估在判断模型状态中的作用。

三.线性回归模型 

1. 线性回归模型介绍

  • 通过一个简单的例子,假设学生学习机器学习的时间与得分之间存在线性关系,引入了线性回归模型的概念。
  • 展示了如何通过训练数据集(学生学习时间和得分)来预测学习4小时后的得分。

2. 线性回归模型原理

  • 详细介绍了线性回归模型的数学表达式:𝑦 = 𝑥 ∗ 𝜔 + 𝑏,其中𝜔和𝑏是需要通过数据求解的参数。
  • 解释了线性回归模型中因变量和自变量之间的线性关系,以及权重系数𝑤的作用。

3. 线性回归模型的训练方法

  • 介绍了如何通过最小二乘法、梯度下降法等方法来求解线性回归模型中的参数𝜔和𝑏。
  • 强调了训练过程中损失函数的重要性,以及如何通过损失函数来衡量模型预测值与真实值之间的差异。

4. 损失函数的定义与优化

  • 定义了损失函数为真实值与预测值的平方差,目标是找到使得损失函数最小的𝜔值。
  • 通过穷举法展示了如何计算不同𝜔值下的损失,并找到了使得平均损失最小的理想𝜔值。

5. 线性回归模型的可视化分析

  • 介绍了如何使用Matplotlib库来绘制线性回归模型的损失函数图像,以便更直观地分析和优化模型。
  • 详细说明了plt.plot()函数的使用方法,包括如何设置线条样式、颜色、标记等属性。

6. 线性回归模型的代码实现

  • 提供了使用Python实现线性回归模型的代码示例,包括数据准备、模型定义、损失函数定义和穷举法计算损失值。
  • 展示了如何通过代码来验证理论分析的结果,并进一步优化模型。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值