手头有一个新浪微博的数据集,大概在1亿条左右。用Pig和Spark写了几行代码,基于400w条微博,统计了每秒钟发了多少条微博。
Life is too short , show me the code.
将数据从本地拷到HDFS上:
hadoop fs -copyFromLocal /home/data/weibo/201605/weibo_freshdata.2016-05-01 /input/weibo/201605
Pig脚本:
启动pig的grunt交互式窗口:
pig
默认在Hadoop集群环境中运行。脚本如下:
weibo = LOAD 'hdfs://master:9000/input/weibo/201605/weibo_freshdata.2016-05-01';
-- $1是发布事件
grouped_weibo = group weibo by $1;
counts = foreach grouped_weibo generate

本文通过Pig和Spark对1亿条微博数据进行分析,统计了每秒钟的微博发布数量。Pig脚本执行耗时约2分钟30秒,而Spark仅用17秒完成。经过验证,两种方法结果一致,并制作了微博活跃度的趋势图表,揭示了凌晨低峰和早晚高峰的分布情况。
最低0.47元/天 解锁文章
5921

被折叠的 条评论
为什么被折叠?



