数据获取、存储与数据库基础
1. API 使用的利弊
在数据获取过程中,API(应用程序编程接口)是一种常用的工具。以下是使用 API 的优缺点:
| 优点 | 缺点 |
| — | — |
| 可立即访问可用数据 | 大规模 API 系统不可靠(存在选择偏差) |
| 数据量巨大 | 数据过载 |
| 无需担心存储问题,可直接从服务存储中访问数据 | 对访问的可靠性和依赖性高,存在 API 限制或停机问题 |
如果找到想要使用的 API,需要制定一些规则,例如如何使用它以及在无法访问时该怎么做(可以考虑将响应数据本地存储以避免停机问题)。随着时间的推移,收集足够多的响应数据也有助于消除研究中的一些选择偏差。
除了社交网络服务,还有各种网站可以发布自己的问题和想法并获取众包回复。可以选择专业论坛或通过自己的渠道发布调查,但要注意处理可能出现的样本大小和抽样误差。以威斯康星大学的调查指南作为编写自己的调查的起点是个不错的选择。此外,还可以参考以下众包数据来源:
- 盖洛普民意调查
- 欧洲社会调查
- 路透社民意调查
获取的数据量通常非常庞大,筛选出有价值的信息并确定可以回答的问题以及如何回答这些问题并非易事。接下来通过几个案例研究,了解如何获取有助于回答问题的数据。
2. 案例研究:数据调查示例
2.1 埃博拉危机
如果想调查西非的埃博拉危机,可以先在谷歌上搜索“埃博拉危机数据”。会发现许多国际组织在追踪病毒的传播,并提供了大量工具。例如,世界卫生组织(WHO)的情况报告,该网站提供最新病例和死亡人数信息、受影响地
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



