4、构建Twitter数据集与HDFS存储入门

最新推荐文章于 2025-09-24 15:04:33 发布

异步汪仔

最新推荐文章于 2025-09-24 15:04:33 发布

阅读量40

点赞数

CC 4.0 BY-SA版权

分类专栏：探索Hadoop 2的无限可能文章标签： Twitter数据集 HDFS存储 Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/d3e4f/article/details/150106632

探索Hadoop 2的无限可能专栏收录该内容

30 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

构建Twitter数据集与HDFS存储入门

1. 构建Twitter数据集

由于Twitter的服务条款禁止以任何形式重新分发用户生成的数据，我们将使用Python脚本从实时流中收集用户推文来创建数据集。

1.1 Twitter的API

Twitter每天有超过2亿条推文，平台通过四种类型的API提供对这些数据的访问：
- Twitter for Products ：用于第三方源链接和与Twitter内容交互。
- REST ：以编程方式访问特定用户或站点的内容。
- Search ：跨用户或站点时间线的搜索功能。
- Streaming ：实时访问Twitter网络上创建的所有内容。

我们将使用Streaming API作为数据源，借助第三方库处理认证和连接管理等事务。

1.2 推文结构

每次调用实时API返回的推文对象是一个序列化的JSON字符串，包含文本消息、属性和元数据，如：
- 唯一标识推文的数字ID
- 推文分享的位置
- 分享推文的用户
- 是否被其他用户转发及转发次数
- 机器检测到的文本语言
- 是否是回复推文及回复的用户和推文ID等

推文结构会不断演变，最新参考可查看：https://dev.twitter.com/docs/platform-objects/tweets

1.3 Twitter凭证 </

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。