数据求均值背后的原理 - 最小二乘法

1. 背景

        对采集数据求均值是一种常见简单有效的数据处理手段,比如用直尺去测量物体的长度一般情况会多次测量然后计算平均值然后将平均值作为物体的长度,又如我们需要测量某电源的电压也会采取类似的方法,可以说对数据求均值在我们工作生活中无处不在,但为什么求均值后的测量值会更加接近真实值呢?

2. y=c模型

        当你使用直尺去多次测量某物体的长度,然后多次测量后会去计算多次测量后平均值并这个最终的值作为物体的长度;从结果这来说这个这个均值会更加稳定更加接近真实长度,但我们要从原因上解释均值的合理性就需要从测量谈,首先对物体测量结果如下:

x_1,x_2,x_3,\cdot \cdot \cdot, x_i

        在现实生活中由于噪声的存在,无论我们使用多么紧密的测量设备都无法测量得到物体真实的长度,所以测量值与真实值存在以下关系(ei为测量误差):

x_1=x+e_1,x_2=x+e_2,x_3=x+e_3,\cdot \cdot \cdot ,x_i=x+e_i

        那么测量误差如下(为了防止误差正负低效,这里对其计算了绝对值):

e_1=|x_1-x|,e_2=|x_2-x|,···,,e_i=|x_i-x|,\cdot \cdot \cdot ,e_m=|x_m-x|

        在最小二乘的观点中,上述所有的误差加起来最小(误差和最小)时x取值就是最靠近真实值,误差和如下:

e=\sum_{n=1}^m |e_i|=\sum_{n=1}^m |x_i-x|

        由于绝对值函数不可导无法使用微积分工具来计算最值,这里将绝对值换算成平方运算

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值