构建Twitter数据集与HDFS存储入门
1. 构建Twitter数据集
由于Twitter的服务条款禁止以任何形式重新分发用户生成的数据,我们将使用Python脚本从实时流中收集用户推文来创建数据集。
1.1 Twitter的API
Twitter每天有超过2亿条推文,平台通过四种类型的API提供对这些数据的访问:
- Twitter for Products :用于第三方源链接和与Twitter内容交互。
- REST :以编程方式访问特定用户或站点的内容。
- Search :跨用户或站点时间线的搜索功能。
- Streaming :实时访问Twitter网络上创建的所有内容。
我们将使用Streaming API作为数据源,借助第三方库处理认证和连接管理等事务。
1.2 推文结构
每次调用实时API返回的推文对象是一个序列化的JSON字符串,包含文本消息、属性和元数据,如:
- 唯一标识推文的数字ID
- 推文分享的位置
- 分享推文的用户
- 是否被其他用户转发及转发次数
- 机器检测到的文本语言
- 是否是回复推文及回复的用户和推文ID等
推文结构会不断演变,最新参考可查看:https://dev.twitter.com/docs/platform-objects/tweets
超级会员免费看
订阅专栏 解锁全文
1197

被折叠的 条评论
为什么被折叠?



