机器学习那些事儿 | 基础知识（一）

最新推荐文章于 2025-09-21 16:18:09 发布

转载最新推荐文章于 2025-09-21 16:18:09 发布 · 176 阅读

·

0

·

文章标签：

#机器学习 #深度学习 #监督学习 #数据挖掘 #计算机视觉

AI派在读学生小姐姐Beyonce

Java实战项目练习群

长按识别下方二维码，按需求添加

640.webp (1).jpg

扫码添加Beyonce小姐姐

微信图片_20200223084351_副本.png

扫码关注

进Java学习大礼包

机器学习那些事儿 | 基础知识（一）

1. 常用基本术语

分类（classification）：预测结果为「离散值」。
回归（regression）：预测结果为「连续值」。
聚类（clustering）：将训练集分为若干个「簇」（cluster），这些自动生成的簇可能对应一些潜在的概念划分。而这些概念我们事先是不知道的，学习过程中使用的训练样本不包含标记信息。
二分类（binary classification）：只涉及「两个类别」的分类任务。即：正类（positive class）和负类（negative class）。
监督学习（supervised learning）：训练数据含有标记信息。比如：「分类」、「回归」。
无监督学习（unsupervised learning）：训练数据不含有标记信息。比如：「聚类」。
泛化（generalization）能力：机器学习得到的模型适用于新样本的能力。
归纳偏好（inductive bias）：机器学习算法在学习的过程中对某种类型假设的偏好。

2.模型评估常用术语

错误率（error rate）：如果在个样本中有个样本分类错误，则错误率。
精度（accuracy）：。
误差（error）：学习器的实际预测输出与样本的真实输出之间的差异。
训练误差（training error）/经验误差（empirical error）：学习器在「训练集」上的误差。
测试误差（testing error）：学习器在「测试集」上的误差。
泛化误差（generalization error）：学习器在「新样本」上的误差。
过拟合（overfitting）：学习器学得“太好了”，导致泛化能力下降。
欠拟合（underfitting）：训练样本的一般性质尚未学好。

3.训练集和测试集划分方法

3.1留出法（hold-out）

直接将数据集划分为两个「互斥」集合，其中一个作为训练集，另外一个作为测试集，即：。

「留出法的注意点：」

训练/测试集的划分要尽可能保持「数据分布」的「一致性」（一般训练集占比为2/3~4/5）；
「单次」使用留出法得到的估计结果不够可靠，一般采用采用若干次「随机划分」、「重复进行」实验评估后「取均值」作为最终结果。

3.2交叉验证法（cross validation）

首先，将数据集划分为个大小相似的「互斥」子集，即：。然后，每次用个子集的并集作为训练集，余下的那个子集作为测试集。

这样就可以获得组训练集/测试集，从而进行次训练和测试，最终返回这个个测试结果的「均值」。10折交叉验证示意图如图所示。

(图片来自《机器学习》-周志华)

「交叉验证法的注意点：」

为了减小因样本划分带入的差别，折交叉验证通常要随机使用不同的划分「重复次」，最终评估结果是这次折交叉验证结果的「均值」；
假定数据集中包含样本，若令，则得到交叉验证法的特例：「留一法」（Leave-One-Out, LOO）。留一法不受样本随机划分方式的影响。但是数据量大时的计算成本较高。

3.3自助法（bootstrapping）

给定包含个样本的数据集，我们对它进行采样产生数据集：每次随机从中挑选-一个样本，将其拷贝放入，然后再将该样本放回初始数据集中，使得该样本在下次采样时仍有可能被采到；这个过程重复执行次后，我们就得到了包含个样本的数据集，这就是自助采样的结果.

样本在次采样中始终不被采到的概率是,取极限得到

即通过自助采样，初始训练集中约有36.8%的样本未出现在采样数据集中。

「自助法的注意点：」

自助法在数据集「较小」，「难以划分」训练/测试集时很有用；
自助法产生的数据集改变了初始数据集的分布，「引入估计偏差」；
初始数「据量足够时」，留出法和交叉验证法更常用。

参考文献：《机器学习》——周志华
❞

文末福利

各位猿们，还在为记不住API发愁吗，哈哈哈，最近发现了国外大师整理了一份Python代码速查表和Pycharm快捷键sheet，火爆国外，这里分享给大家。

这个是一份Python代码速查表

下面的宝藏图片是2张(windows && Mac)高清的PyCharm快捷键一览图

怎样获取呢？可以添加我们的AI派团队的Beyonce小姐姐

一定要备注【高清图】哦

????????????????????

➕我们的Beyonce小姐姐微信要记得备注【高清图】哦

来都来了，喜欢的话就请分享、点赞、在看三连再走吧~~~

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。