0x00 前言
让我们从最近很火的一个小案例入手:前些日子,腾讯发表了上半年的财报,随后,“腾讯月平均工资破7万”的消息不胫而走,也因此催生了不少柠檬树。不管你酸不酸,反正我是很酸的,于是乎,就跑去问了居士:“大佬,你的工资有7w+吗?”
居士曰:“我倒是希望我的工资能有7w+…”
他这么一说,我突然就不酸了,哈哈哈,原来居士也是“被平均”了的一分子(可能这就是一种阿Q式的心理安慰了)。那么站在统计学的角度来说,这个数据的背后到底隐含了什么样的信息呢?想要弄懂这个问题,我想我们可能需要温习一下如何描述一组数据的分布情况这一知识点。
0x01 温故而知新
工欲善其事,必先利其器。数据的分布特征可以从三个方面进行描述:集中趋势、离散程度、分布的形状。而集中趋势的描述指标主要有众数、中位数、平均值;离散程度的描述指标主要有异众比率、四分位差、方差、标准差和离散系数;分布的形状的描述指标则有偏态和峰态。
集中趋势
众数: 一组数据中出现次数最多的变量值,一般情况下,只有数据量较大的时候, 众数才有意义。
中位数: 是指一组数据排序后处于中间位置的变量值。
平均数: 数据集中趋势的最主要度量指标,主要适用于数值型数据,但不适用于分类数据和顺序数据。平均数主要分为算术平均数、加权平均数和几何平均数,对于不同的数据,采用不同的计算方式。