Stanford机器学习---第六周.学习曲线、机器学习系统的设计

本文探讨了机器学习中的学习曲线和系统设计,包括偏差、方差的分析,以及模型选择和误差评估。通过学习曲线分析欠拟合和过拟合,强调了正则化参数、样本量对模型的影响。同时介绍了机器学习系统设计流程,涉及特征工程、误差分析和评估标准,如准确率、查准率、召回率及F值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 第六周.学习曲线、机器学习系统的设计

Learning Curve and Machine Learning System Design

关键词

          学习曲线、偏差方差诊断法、误差分析、机器学习系统的数值评估、大数据原理

概要

         本周内容分为两讲:

         第一讲.Advice for applying machine learning,主要内容是关于偏差、方差以及学习曲线为代表的诊断法,为改善机器学习算法的决策提供依据;

         第二讲.Machine learning system design,主要内容是机器学习算法的数值评估标准:准确率(交叉验证集误差)、查准率precision、召回率recall以及F值,给出了机器学习系统的设计流程.

==============================第一讲==============================

=========                关于偏差、方差以及学习曲线为代表的诊断法         ==========

(一)模型选择Model selection

在评估假设函数时,我们习惯将整个样本按照6:2:2的比例分割:60%训练集training set20%交叉验证集cross validation set20%测试集test set,分别用于拟合假设函数、模型选择和预测。


三个集合对应的误差如下图所示(注意没有不使用正则化项):


基于以上划分,我们有模型选择的三个步骤:

step1.用测试集training set对多个模型(比如直线、二次曲线、三次曲线)进行训练;

step2.用交叉验证集cross validation set验证step1得到的多个假设函数,选择交叉验证集误差最小的模型;

step3.用测试集test setstep2选择的最优模型进行预测;



以线性回归为例,假设你利用线性回归模型最小化代价函数J(θ)求解得到一个假设函数h(x),如何判断假设函数对样本的拟合结果是好是坏,是不是说所有点都经过(代价函数J最小)一定是最理想的?

或者这样说,给你下图的样本点,你是选择直线、二次曲线、还是三次曲线......作为假设函数去拟合呢?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值