伦理收集:减少推特数据集偏差及大数据推荐系统助力新地点消费
减少推特数据集偏差
在研究领域,推特平台因数据获取便捷、能快速分析并得出结果而备受研究者青睐。然而,为研究目的采集推特数据时,需进行规范以确保结果无偏差。
1. 推特数据采集现状与问题
推特允许用户发布长达280个字符的推文,公开推文会产生大量可供研究者收集的数据。研究者可通过推特开发者平台,利用三种应用程序编程接口(API)来收集和分析推文,分别是推特搜索API、推特流式API和推特消防栓API。不同的API数据访问方式存在差异,这使得基于推特数据样本得出的结论存疑,影响研究结果的可靠性。
在研究中,数据收集、分析、解释或发布过程中偏离真实情况的趋势被称为偏差,本文重点关注抽样偏差。抽样偏差指样本收集方式导致目标总体中的部分成员在样本中未得到平等代表,从而形成非随机样本。若抽样出现此类错误,研究结果可能被错误归因于研究现象而非抽样方法。
2. 相关研究回顾
- Streaming API vs. Firehose :Wang等人对比了使用推特流式API获取的数据样本,发现流式API得到的样本不如消防栓API具有代表性。
- Search API vs. Streaming API :Filho等人探讨了推特数据中的总体样本偏差及其对预测准确性的影响,认为免费推特API收集的样本不足以进行准确预测。
- Search API vs. Firehose :Zhang等人比较了事件研究中的三种收集
超级会员免费看
订阅专栏 解锁全文
1285

被折叠的 条评论
为什么被折叠?



