大数据分析:Apache Pig与Hadoop上的SQL应用
一、Apache Pig进行数据分析
在使用Apache Pig进行数据分析时,我们可以通过一系列操作来处理数据。以下是具体的操作步骤和示例代码。
1. 计算主题回复频率
由于用户定义函数(UDF)期望输入为有序的整数值包,我们首先计算每个 topic_replied 条目的频率。具体代码如下:
topics_with_replies_grpd = GROUP twitter_graph BY topic_replied;
topics_with_replies_cnt = FOREACH topics_with_replies_grpd {
GENERATE
COUNT(twitter_graph) as cnt;
}
上述代码首先按 topic_replied 对 twitter_graph 进行分组,然后对每个分组内的记录进行计数。
2. 应用分位数计算
接着,我们对频率包应用分位数计算,代码如下:
quantiles = FOREACH (GROUP topics_with_replies_cnt ALL) {
sorted = ORDER topics_with_replies_cnt BY cnt;
GENERATE Quantile(sorted);
}
超级会员免费看
订阅专栏 解锁全文
838

被折叠的 条评论
为什么被折叠?



