数据挖掘与统计分析基础
1. 总体与样本
在分析数据时,首先要明确是在处理总体还是样本。总体是构成特定类别的所有个体或实例的集合,而样本则是从总体中选取的一部分,对其进行测量和记录。
1.1 总体测量
总体有时是可以被测量的。例如,《豪斯医生》是美国一部受欢迎的电视剧,从1979年播放到1985年,共7季145集。剧中那辆标志性的橙色1969款道奇挑战者成为该剧最著名的标志之一。理论上,可以估算每次跳跃的长度并创建所覆盖距离的分布。由于拍摄的集数并非过多,每周观看三集并估算每一次跳跃,一年时间就可以完成对所有集数的评估,这就是对总体的测量,因为没有一集被遗漏。
1.2 样本测量
但在很多情况下,测量总体是不现实的。比如要测量加拿大鹅从出生巢穴到迁徙最远点的最大飞行距离,不可能追踪并标记每一只鹅。这时,我们会捕获并标记足够数量的鹅,以此推断整个鹅群的行为。大多数迁徙的鹅不会带有我们的标记,但如果研究设计得当,就可以根据标记的鹅得出关于鹅群飞行模式的有意义信息,这就是样本测量。
1.3 总体与样本统计研究
对总体进行统计研究相对较少,这通常与成本和时间的核心限制有关。更常见的是使用样本推断总体的特征。例如,通过询问一部分人的意见来推断总体的情绪。在大多数情况下,会随机选择几千个人作为样本。这种抽样总会存在一定程度的误差,由于抽样和测量的不完善,误差无法消除,但这仍是获取见解的有效方法。
1.4 抽样的应用
抽样还用于产品质量测试,特别是在需要进行破坏性测试(如碰撞测试或挤压测试)时。如果一家公司对整个统计总体进行破坏性测试,就没有产品可销售了,会导致
超级会员免费看
订阅专栏 解锁全文
3088

被折叠的 条评论
为什么被折叠?



