西瓜书机器学习总结（一）

helloworldsv

于 2017-09-06 16:23:33 发布

阅读量1.9k

点赞数 1

分类专栏：机器学习文章标签：机器学习机器学习-周志华

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_34059989/article/details/77868062

版权

本文概述了机器学习的基本概念，包括数据集、特征属性和模型选择。讨论了归纳学习、NFL定理以及模型的过拟合和欠拟合问题。同时，介绍了模型评估方法，如留出法、交叉验证和自助法，并提到了模型度量标准如ROC曲线和AUC。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.基本概念

1.数据集，特征属性，属性值，训练集，样本，标记，独立同分布的假设balabala….简单易懂

2.归纳学习与归纳偏好：

广义从样例学习，狭义是学习概念。西瓜模型的学习可以理解为从假设空间中搜索匹配，剔除不符合，最终会有多个模型，这个集合也可以叫做版本空间。然后我们必须根据规则选择一个，设计occam’s razor原理，选择最简单的。

3.NFL:

所有模型的期望性能相同。（假设各个机会相同）周志华举了例子，从A到C，南京到上海，自行车出现的可能性肯定与火车不同。

4.balalal一些模型的发展

2.模型评估与选择

1. 经验误差：

上个笔记讲过了各种误差。

2. 过拟合：

缺少了一般性，只在训练集上表现好，把样本的一些独特的特点当做一般的，比如误认为树叶一定欧锯齿。

3. 欠拟合：

相对，学习能力低，没有学到特点。

4. 评估方法：

留出测试集进行评估

1.留出法：

分层采样，训练和测试各占一定比例，正负样本也要考虑。

2.交叉验证：

分成训练集和测试集交叉验证（和上个笔记说的分成训练集，验证集和测试集是在样本容量足够大的情况随机分，现在的这种要重复使用数据）

3.自助法：

从数据集中有放回的随机采样，放入测试集，则在m次抽取中有

lim m \to \infty (1 - 1 m) m \to 1 e

$\lim_{m\to\infty}(1-\frac{1}{m})^m \to \frac{1}{e}$

5. 模型度量：

回归任务常用的一些损失函数。分类任务常用acc，recall,precision,F1。

6. P-R曲线与平衡点

7. ROC和AUC:

使用真正例率（ $TPR=\frac{TP}{TP+FN}$ ）和假正例率（ $FPR=\frac{FT}{FT+TN}$ )座位横纵坐标，auc是下面的面积。理解一些就是预测对的正例占总的正例比例（和recall是不是一样？），预测错的正例占总的错的比率。

8. 样本特征：x,样本值： $y_0$ 实际值：y 预测值：f(x;D)

1.期望预测

f -

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。