核心逻辑:用少量样本推测全体,需要算清楚至少抽多少人才能保证结果靠谱
1. 为什么要算样本量?
假设你想知道全班同学的平均身高,你会:
不可能量所有人(费时费力)
也不能只量 1 个人(误差太大)
所以需要找一个「最少人数」,让结果既快又准
关键公式:
样本量 n = (Z² * p*(1-p)) / E²
置信区间 = 样本统计量 ± Z * 标准误差
Z:置信水平对应的 Z 值(95% 对应 1.96)
p:预估比例
E:允许误差
2. 公式里的 4 个变量(用追女生举例)
假设你想知道全校男生喜欢隔壁班女生的比例:
变量 解释(追女生版) 统计术语
可信度系数 你有多大把握结果正确(比如 95% 信心,对应 1.96) ——> Z 值
预估比例 你猜大概有多少男生喜欢她(如果完全不知道,就猜 50%) ——> p 值
允许误差 你能接受的结果偏差(比如允许上下 5% 的误差) ——> E 值
样本量 至少要问多少男生才能得到靠谱结果 ——> n 样本量
3. 具体计算步骤(用全校男女比例举例)
问题:想知道全校男生占比,要求误差不超过 ±5%,可信度 95%
可信度系数 Z值:95% 可信度对应 1.96(记住这个数就行)
预估比例 p值:假设不知道,就填 50%(0.5)
允许误差 E值:±5% 即 0.05
计算:
样本量 = (1.96 × 1.96 × 0.5 × 0.5) ÷ (0.05 × 0.05) ≈ 385人
结论: 至少要随机问 385 人,结果才有 95% 的概率和真实值误差不超过 5%
置信区间:样本比例 ±5%(如样本显示 60%,则真实值有 95% 概率在 55%-65% 之间)
4. 常见误区
误区 1:总人数越多,样本量要越大
✅ 错!置信区间宽度由样本量决定,与总体规模无关(除非总体很小)
误区 2:样本量越大越好
✅ 错!置信区间的边际收缩效应:
从 385 人增至 1000 人,误差仅从 ±5% 缩至 ±3%
但成本可能翻倍
5. 现实中的应用
市场调研:某品牌手机想知道用户满意度,误差要求 ±3% → 样本量≈1067 人
人口普查:国家统计局用分层抽样(按城乡 / 年龄分组),每个组单独算样本量
医学试验:新药有效性测试,允许误差更小(比如 ±1%)→ 样本量≈9604 人
总结:算样本量就像买保险,既要保证结果靠谱(可信度),又不能花冤枉钱(样本量)。公式背后是数学保证,只要参数选对,就能用最少的钱得到足够准的答案。