7、数据挖掘与统计分析基础

数据挖掘与统计分析基础

1. 总体与样本

在分析数据时,首先要明确是在处理总体还是样本。总体是构成特定类别的所有个体或实例的集合,而样本则是从总体中选取的一部分,对其进行测量和记录。

1.1 总体测量

总体有时是可以被测量的。例如,《豪斯医生》是美国一部受欢迎的电视剧,从1979年播放到1985年,共7季145集。剧中那辆标志性的橙色1969款道奇挑战者成为该剧最著名的标志之一。理论上,可以估算每次跳跃的长度并创建所覆盖距离的分布。由于拍摄的集数并非过多,每周观看三集并估算每一次跳跃,一年时间就可以完成对所有集数的评估,这就是对总体的测量,因为没有一集被遗漏。

1.2 样本测量

但在很多情况下,测量总体是不现实的。比如要测量加拿大鹅从出生巢穴到迁徙最远点的最大飞行距离,不可能追踪并标记每一只鹅。这时,我们会捕获并标记足够数量的鹅,以此推断整个鹅群的行为。大多数迁徙的鹅不会带有我们的标记,但如果研究设计得当,就可以根据标记的鹅得出关于鹅群飞行模式的有意义信息,这就是样本测量。

1.3 总体与样本统计研究

对总体进行统计研究相对较少,这通常与成本和时间的核心限制有关。更常见的是使用样本推断总体的特征。例如,通过询问一部分人的意见来推断总体的情绪。在大多数情况下,会随机选择几千个人作为样本。这种抽样总会存在一定程度的误差,由于抽样和测量的不完善,误差无法消除,但这仍是获取见解的有效方法。

1.4 抽样的应用

抽样还用于产品质量测试,特别是在需要进行破坏性测试(如碰撞测试或挤压测试)时。如果一家公司对整个统计总体进行破坏性测试,就没有产品可销售了,会导致

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值