西瓜书机器学习总结(一)

本文概述了机器学习的基本概念,包括数据集、特征属性和模型选择。讨论了归纳学习、NFL定理以及模型的过拟合和欠拟合问题。同时,介绍了模型评估方法,如留出法、交叉验证和自助法,并提到了模型度量标准如ROC曲线和AUC。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.基本概念

1.数据集,特征属性,属性值,训练集,样本,标记,独立同分布的假设balabala….简单易懂
2.归纳学习与归纳偏好:

广义从样例学习,狭义是学习概念。西瓜模型的学习可以理解为从假设空间中搜索匹配,剔除不符合,最终会有多个模型,这个集合也可以叫做版本空间。然后我们必须根据规则选择一个,设计occam’s razor原理,选择最简单的。

3.NFL:

所有模型的期望性能相同。(假设各个机会相同)周志华举了例子,从A到C,南京到上海,自行车出现的可能性肯定与火车不同。

4.balalal一些模型的发展

2.模型评估与选择

1. 经验误差:

上个笔记讲过了各种误差。

2. 过拟合:

缺少了一般性,只在训练集上表现好,把样本的一些独特的特点当做一般的,比如误认为树叶一定欧锯齿。

3. 欠拟合:

相对,学习能力低,没有学到特点。

4. 评估方法:

留出测试集进行评估

1.留出法:

分层采样,训练和测试各占一定比例,正负样本也要考虑。

2.交叉验证:

分成训练集和测试集交叉验证(和上个笔记说的分成训练集,验证集和测试集是在样本容量足够大的情况随机分,现在的这种要重复使用数据)

3.自助法:

从数据集中有放回的随机采样,放入测试集,则在m次抽取中有

limm(11m)m1e

5. 模型度量:

回归任务常用的一些损失函数。分类任务常用acc,recall,precision,F1。

6. P-R曲线与平衡点
7. ROC和AUC:

使用真正例率( TPR=TPTP+FN )和假正例率( FPR=FTFT+TN )座位横纵坐标,auc是下面的面积。理解一些就是预测对的正例占总的正例比例(和recall是不是一样?),预测错的正例占总的错的比率。

8. 样本特征:x,样本值: y0 实际值:y 预测值:f(x;D)
1.期望预测

f
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值