3、数据范围与测量:从概念到实践

数据范围与测量:从概念到实践

1. 大数据时代的数据误区

在大数据时代,我们往往倾向于收集越来越多的数据,以期精确地回答问题。毕竟,全面普查能为我们提供完美的信息,那么大数据是否也近乎完美呢?遗憾的是,事实并非总是如此,尤其是行政数据和数字痕迹方面。想要研究的人群中,哪怕只有一小部分难以触及(如2016年的选举意外结果),或者测量过程本身存在问题(如GFT示例),都可能导致预测不准确。因此,在研究问题时,考虑数据范围至关重要。

数据范围涵盖了我们想要研究的总体、获取该总体信息的方式以及实际测量的内容。仔细思考这些要点,有助于我们发现研究方法中可能存在的漏洞。

2. 目标总体、可访问框架和样本

2.1 关键概念

在数据生命周期中,一个重要的初始步骤是在特定主题领域的背景下明确感兴趣的问题,并思考该问题与为回答它而收集的数据之间的联系。在进行分析或建模之前,这样做是一个很好的做法,因为它可能揭示出问题与数据之间的脱节,即感兴趣的问题无法直接由所收集的数据解决。

  • 目标总体 :目标总体是由我们最终想要描述并得出结论的总体元素组成的集合。这些元素可以是一群人中的一个人、选举中的一名选民、一组推文中的一条推文,或者一个州中的一个县。我们有时也将元素称为单位或原子。
  • 可访问框架 :可访问框架是我们可以进行测量和观察的元素集合。这些单位是我们研究目标总体的途径。理想情况下,可访问框架与目标总体完全一致,即它们包含完全相同的元素。然而,可访问框架中的单位可能只是目标总体的一个子集,此外,框架中还可能包含不属于总体的单位
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值