hive单词统计

需统计的单词

hello hadoop hive spark
java python php c hello
java hadoop
hello java java

需创建的表

--创建表wc,用来存储单词,是外部表,上面的数据在hdfs的目录位置为/root/wc/wc
create external table wc(
line string
)
location '/root/wc/'

--创建表wc_result,词表用来存放单词统计结果
create table wc_result(
wc string,
count int
)

单词统计

--将wc表切割成数组
select split(line,' ') from wc;

--将wc表切割成一个一个字符
select explode(split(line,' ')) from wc;

--对单词切割后存入结果表wc_result中的两种方式
--第一种
from (select explode(split(line,' ')) as word from wc) t
insert into table wc_result 
select t.word,count(t.word) group by t.word

--第二种
insert into table wc_result 
select t.word,count(t.word) from (select explode(split(line,' ')) as word from wc) t group by t.word

参考文档:https://blog.youkuaiyun.com/qq_35022142/article/details/79801888

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值