机器学习中的数学(2):均数

生活中常见的均值为算术平均值(或平均数):将所有的数字加起来,然后除以数字的个数。

注:μ表示平均数,∑x表示数字的和,n表示数字个数

或使用频数计算算术平均值

注:∑f表示频数和,∑fx表示频数与数字的乘积和

生活中常遇到新闻上说当前某个城市的平均房价,平均工资。特别是平均工资特别让我们气愤,总感觉自己在拖国家后腿。其实我们是被平均了

姓名收入(月)
张三8000
王二8000
李四10000
张五8000
陈六5000
刘七5000
马云60000000
马化腾50000000

如果按照算术平均数进行计算,上面个八个人的平均月收入是13755687.5,不难看出平均月收入远低于平均收入。相对普通人的月收入,二马的收入被称为异常值。异常数据的存在经常导致的问题是数据倾斜。

当数据向右倾斜时,平均值大于大部分数字;当数据向左倾斜时,平均值小于大部分数字。

注:除上述图形的形式观察数据倾斜情况外,在数据统计过程中,我们常用方差,标准差等观察数据分布情况,这些在之后会说到

当偏斜数据和异常值使平均值产生误导时,我们需要用其他方式表示典型值,例如中间值,即中位数。首先我们把需要的值按照升序或者降序进行排列,取一列数中的中间的数字,如果该列数据为偶数,则取中间两个数的算术平均数。例如上面的月收入数据中间数为(8000,8000),取平均值得中位数为8000。中位数的主要特点就是不受分布数列的极大或极小值影响,从而在一定程度上提高了中位数对分布数列的代表性。

相比与平均数,如果数据未出现倾斜,中位数等于平均数;如果数据向右倾斜,则中位数小于平均数;反之则大于。

相比于老外,中国人都是无神论者,从古至今都是敢与天搏和地斗,用毛泽东的话说:“敢叫日月换新颜”。但是有些人就是命好,赶上拆迁了,个人资产瞬间提升。利于郑州的一个城中村的家庭存款情况汇总如下:

家庭存款(万)102030300035005000
户数253352

不难算出上述表格中家庭存款平均数与中位数相等均为1515万。但是中位数与平均数都不能体现该村家庭存款的真实情况,这时我们需要另一个平均数——众数。

众数是数据集中出现频率最高的数值,与平均数与中位数不一样的是,众数是数据集中的一个数值,且该数值在数据集中频繁出现。有时,数据的众数可以不止一个。如果有一个以上的数值具有最大频数,则每一个这样的数值都是众数。如果数据看上去体现了多趋势或多批数据,那么我们就为每一批数据给出一个众数。如果一批数据有两个众数,则被称为双峰数据。

众数不仅能用于数值型数据,还能用于类别数据,众数是唯一能用于类别数据平均数。具有最高频数的组被称为众数组。

统计中常用的统计方法:观察法、金氏插入法、皮尔逊经验法

1、观察法:若数据已归类,则出现频数最多的数据即为众数;若数据已分组,则频数最多的那一组的组中值即为众数。用观察法求得的众数,一般是粗略众数。

2、金氏插入法:计算公式如下或 

式中L 表示众数所在组的精确下限,U 表示众数所在组的精确上限,fa 为与众数组下限相邻的频数,fb为与众数组上限相邻的频数, i 为组距。

3、皮尔逊经验法:计算公式

式中ξ 为样本均值, Md 为中数,用皮尔逊公司计算所得众数近似于理论众数,常称为皮尔逊近似众数。众数是皮尔逊(Pearson,K.)最先提出并在生物统计学中使用的,以上是数据出自于离散型随机变量时求众数的方法,对于连续型随机变量ξ ,若概率密度函数为 f ,且 f 恰有一个最大值,则此最大值称为ξ 的众数,有时也把 f 的极大值称为众数; f 有两个以上极大值时,亦称复众数。

注:该文中部分内容参考了《深入浅出统计学》,百度百科

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值