hive单词统计

最新推荐文章于 2024-01-08 09:20:53 发布

辣条好辣

最新推荐文章于 2024-01-08 09:20:53 发布

阅读量667

点赞数

分类专栏： hive 文章标签： hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_36306340/article/details/91040443

版权

hive 专栏收录该内容

4 篇文章

订阅专栏

需统计的单词

hello hadoop hive spark
java python php c hello
java hadoop
hello java java

需创建的表

--创建表wc,用来存储单词，是外部表，上面的数据在hdfs的目录位置为/root/wc/wc
create external table wc(
line string
)
location '/root/wc/'

--创建表wc_result，词表用来存放单词统计结果
create table wc_result(
wc string,
count int
)

单词统计

--将wc表切割成数组
select split(line,' ') from wc;

--将wc表切割成一个一个字符
select explode(split(line,' ')) from wc;

--对单词切割后存入结果表wc_result中的两种方式
--第一种
from (select explode(split(line,' ')) as word from wc) t
insert into table wc_result 
select t.word,count(t.word) group by t.word

--第二种
insert into table wc_result 
select t.word,count(t.word) from (select explode(split(line,' ')) as word from wc) t group by t.word

参考文档：https://blog.youkuaiyun.com/qq_35022142/article/details/79801888

博客等级

码龄9年

91
原创

278
点赞

1098
收藏

108
粉丝

关注

私信

热门文章

分类专栏

最新评论

hudi表元数据同步hive策略
普通网友: 这篇文章真是一篇佳作!作者运用了生动有趣的语言,将枯燥的理论知识娓娓道来,让人如沐春风。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
hudi开启了流读，read.streaming.enabled为true，还需要设置查询类型吗如snapshot
普通网友: 写的很详细，感谢博主的分享。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
hudi相关疑问
优快云-Ada助手: Java 技能树或许可以帮到你：https://edu.youkuaiyun.com/skill/java?utm_source=AI_act_java
idea常用快捷键
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)增加条理清晰的目录；(3)提升标题与正文的相关性。
spark 读取hive数据写入hbase
ggplot_2: 配置文件吧

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。