机器学习:偏差、噪声的几点认识

作者阅读周志华老师的机器学习书籍(西瓜书)后分享理解。介绍了真值概念,它是理想值一般无法得到。还阐述噪声是真实标记与实际标记偏差,衡量数据集质量,无法用算法改善;偏差是期望预测与真实标记的误差。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近在看周志华老师的机器学习的书籍(俗称西瓜书)。

因为数学功底差,在理解起来困难重重,但是冥思苦想后还有自己的看法,记录一下并和大家分享讨论。

几点理解:

0.吹年之前,先说个 人们容易忽略的概念  真值!

真值是啥玩意那,就是一个我们不知道的(有时候是我们的目标哦),但是实际存在的东西,比如测电压时的测量值和真值。

补充一下真值的概念:真值是指在一定的时间及空间(位置或状态)条件下,被测量所体现的真实数值。真值是一个变量本身所具有的真实值,它是一个理想的概念,一般是无法得到的。

为啥要提真值那?因为真值不是统计学的概念,后面的噪声和偏差都涉及到了真值

1.噪声是什么玩意,怎么理解?

噪声的公式为:

噪声为真实标记与数据集中的实际标记间的偏差:

说白就是:衡量我拿到的数据集的数据的质量如何,有句话说的好,巧妇难为无米之炊,你原始数据差,我算法再好也搞不定啊,因此噪声是无法通过算法改善的,噪声就是物质的存在(但是人们可以对噪声进行处理,比如滤波)。但是人们总是想(期望)拿到数据的值和真值之间的差的平均值为零,也就是噪声期望为零。举个通俗易懂的例子:我们通过设备测信号,我们总是期望测得的数据就是信号的真值,但是实际上,测得数据都是在真值上下移动,衡量数据与真值的差,我们引入了噪声的概念。但是凡是涉及到真值统计学的角度都无法知道真值。

2.另外一个涉及到真值的统计量就是:

偏差

期望预测与真实标记的误差称为偏差(bias), 为了方便起见, 我们直接取偏差的平方:

偏差相比起噪声来很容易理解,就是我算法获得值和目标值(真值)的偏差呗!在此不做过多赘述。

 

注:以上分析仅代表我的个人观点,如果不赞同,欢迎讨论!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值