8月吃瓜教程—task01-学习笔记

本文介绍了机器学习中模型评估的重要概念,包括经验误差与过拟合,强调了泛化误差在学习器选择中的关键作用。过拟合现象在图神经网络模型中表现为训练集loss降低而测试集loss升高。此外,讨论了P, NP, NP难的复杂性理论,并提及了训练集、测试集的划分方法。最后,简要提到了偏差-方差窘境在理解学习性能中的角色。

第一章绪论的学习积累已经在之前写出。

链接:第一章绪论学习
补充一点内容:

一、没有免费的午餐定理
  • 任何算法抛开实际问题来比较算法的优略性是无意义的。
  • 通常我们只认为能高度拟合已有样本数据的函数才是真实目标函数

第二章 模型评估与选择

一、经验误差与过拟合

①通常我们把分类错误的样本数占样本总数的比例称为“错误率”(error rate),即如果在m个样本中有α个样本分类错误,则错误率E= a/m;相应的,1 - a/m称为“精度”(accuracy),即“精度= 1-错误率”.更一般地,我们把学习器的实际预测输出与样本的真实输出之间的差异称为“误差”(error),学习器在训练集上的误差称为“训练误差”(training error)或“经验误差”(empirical error),在新样本上的误差称为“泛化误差”(generalization error).显然,我们希望得到泛化误差小的学习器.

②过拟合,把训练样本中不太一般的特性也学了
欠拟合,学习能力底下导致

比较有印象的是过拟合,在实验中使用过图神经网络模型,构建的训练集loss降低,而测试集loss在升高。这个现象,出现问题的原因还有可能是特征处理问题。

二、关于P,NP,NP难

参考链接这里

三、划分训练集、测试集方法
  • 留出法
  • 交叉验证法
  • 自助法(不常用)
四、评价指标

对于多个二分类混淆矩阵时,介绍了有两种处理方法:
①先在个矩阵计算出查准率和查全率,再计算平均值。称为:宏查准率,宏~~
②先将各混淆矩阵的对应元素进行平均,

五、之后ROC和AUC及代价曲线等不是很明白,之后再回溯
六、偏差与方差
  • 泛化误差可分解为偏差、方差与噪声之和
  • 偏差刻画了算法拟合能力,方差度量了同样大小训练集的变动所导致的学习性能的变化,噪声刻画了学习问题本身的难度
  • 偏差-方差窘境:内容

整体学习指路:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值