Pig WordCount案例学习(flatten,TOKENIZE)

本文详细介绍了WordCount的实现步骤,包括数据加载、单词分割、单词分组及计数等核心过程。通过具体示例解释了如何使用TOKENIZE进行字符串分割、如何利用flatten展开集合元素等关键技术点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

[size=large][color=red][b]WordCount实现 [/b][/color][/size]
-- ① 加载数据
a= load '/input/data' as (line:chararray);
-- ② 将字符串分割成单词
b= foreach a generate flatten(TOKENIZE(line)) as word;
-- ③ 对单词进行分组
c= group words by word;
-- ④ 统计每组中单词数量
d= foreach c generate group,COUNT(b);
-- ⑤ 打印结果
dump cntd;

[b]foreach a generate group :[/b]对c中所有key进行分组
a = (a,{})(b,{})(b,{}):foreach a generate group =>得到(a,b,c)
--------------------------------------------------------------
line = (lin lin lin)
[b]TOKENIZE:[/b]foreach a generate TOKENIZE(line,'') =>({(lin),(lin),(lin)})

[b]flatten:[/b]会把集合的内容打开然后组合一个元组; ({(lin),(lin),(lin)}) =>(lin)(lin)(lin)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值