假设一所只有 100 个学生的学校一共只开了 10 门课,每个学生只上一门课。请问平均每个班上有多少学生?
10 个学生?
THINK AGAIN ! 好好想想。
班级规模悖论(class size paradox)
你去问上面例题中的学校的校长,他一定会告诉你每个班平均只有 10 个学生。但是如果你去问学生,你将会得到完全不一样的答案。
假设这 10 门课中,有 1 门课有 30 名学生;有 2 门课每门有 20 名学生;2 门课每门 10 名学生;5 门课每门有 2 名学生。
学生数 | 课程数 |
---|---|
30 | 1 |
20 | 2 |
10 | 2 |
2 | 5 |
你从 100 名学生中随机调查 50 名,根据简单的概率,预计会有 15 人来自 30名学生的那门课;20 人来自班级人数 20 人的那 2 门课;10 人来自班级人数 10 人的那 2 门课;5 人来自班级人数 2 人的那 5 门课
于是你让这 50 人报出自己班级人数,然后计算一下平均数:
15
∗
30
+
20
∗
20
+
10
∗
10
+
5
∗
2
50
=
19.2
人
\frac{15*30+20*20+10*10+5*2}{50}=19.2 人
5015∗30+20∗20+10∗10+5∗2=19.2人
比实际的平均数 10 人高出了 92% !!!
WHY?
师生比不是你想象中的师生比
很多国外大学非常强调师生比,比值越大,说明老师要照顾的学生数量少,每个学生也就能多分配一些精力。
但是 1:10 的师生比并不意味着每个老师大概只需要教 10 名学生。因为:
- 首先,一个老师一学期可能只教 1-2 门课,但是一个学生一学期可能要上 3-4 门课乃至更多
- 其次,上面的班级规模悖论在发挥着影响——客观准确的统计数字和你的个人经验可能相差万里
简单来说,你上了一个 30 名学生的课,别人上着 2 名学生的课,你被平均了呀!
更重要的是,在做班级人数抽样调查的时候,你和你的同学这种来自大班的人有更大概率被抽中,因为你们班人数多!
这就是为什么抽样调查 50 人得到的平均班级人数有 19.2 人,比实际数据高出了 92%——你们这些大班的人太容易被抽中去做调查了。
抽样计算真实
如果只有抽样得到的数据,要想算出实际情况,简单来说就是要坚持 总 人 数 / 班 级 数 总人数 / 班级数 总人数/班级数 这个算法。
在抽样的 50 人中,总人数 = 50,班级数也很好算。50 人中有 15 人来自班级人数=30的班级,相当于这 15 人占了 1 / 30 ∗ 15 = 0.5 1/30*15=0.5 1/30∗15=0.5 个班。同理计算其他情况。
简单来说正确算法是:
50
1
30
∗
15
+
1
20
∗
20
+
1
10
∗
10
+
1
2
∗
5
=
10
\frac{50}{\frac{1}{30}*15+\frac{1}{20}*20+\frac{1}{10}*10+\frac{1}{2}*5}=10
301∗15+201∗20+101∗10+21∗550=10
这个算法实际上就是“调和平均数(harmonic mean)”。在本案例中,样本的调和平均数才是总体的(算术)平均数,即 10人/班。