Hive实现WordCount的两种方式

最新推荐文章于 2024-05-07 07:00:00 发布

原创

最新推荐文章于 2024-05-07 07:00:00 发布 · 1.1k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#hive

本文介绍了在Hive中实现WordCount的两种方法，包括使用explode函数进行行转列，以及结合Lateral View和用户自定义表生成函数。详细讲述了explode函数的作用和Lateral View的使用场景，并给出了具体的SQL实现示例。

1.数据准备

hadoop hadoop hadoop
spark spark spark
hive
impala

2.创建表

create table wordcount(rowdata string);

3.加载数据

load data local inpath '/opt/modules/data/word.txt' into table wordcount;

4.SQL编程实现WordCount

4.1explode函数

作用：为每个输入行生成零个或多个输出行，即行转列

例子：

select explode(split(rowdata," ")) word from wordcount;

--结果输出
hadoop
hadoop
hadoop
spark
spark
spark
hive
impala

4.2Lateral View 的使用

作用：Lateral View一般与用户自定义表生成函数（如explode()）结合使用，Lateral View 首先将UDTF应用于基表的每一行，然后将结果输出行连接到输入行，以形成具有提供的表别名的虚拟表。

例子：

select 
     word 
from wordcount lateral view explode(split(rowdata," "))

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

大数据技术与数仓

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

用Hive实现wordcount

Today_2018的博客

06-21

700

一、实验内容：用hive实现wordcount 二、实验步骤： 1.准备数据首先利用vi编辑器，编写一个word.txt文件，内容如下图所示： 2.创建测试数据库，命名test,输入如下命令，如图所示 create database test; 3.在test数据库中创建表wordcount create table wordcount(rowdata string); 4.加载数据代码如下 load data local inpath '/home/hadoop/word.txt' .

Spark 快速上手 | WordCount的三种实现方式

lesileqin的博客

04-14

890

文章目录一、搭建开发环境二、体验WordCount1）2）3）三、配置log4j 一、搭建开发环境二、体验WordCount 1） 2） 3）三、配置log4j

参与评论您还未登录，请先登录后发表或查看评论

【hive】在hive中实现WordCount算法

xiaoyi1212的博客

04-24

3972

这里以词频统计为例： 1、准备好自己需要词频统计的文件我这里以《西游记》为例 2、启动hive hive 查看所有数据库 show databases；使用想要使用的数据库 use hive；查看数据库hive下有哪些数据表和视图 show tables； 3、创建一个表docs create table docs(line st...

Hive 案例~使用hive实现wordcount计数

buzhidaoyaa的博客

09-26

1722

使用hive实现wordcount计数思路：（1）创建一个文件，将文件写入 vim data.txt hello kity hello lala jililili liyanting liyanting balabala balalaalalalalalalal word hello kity hello lala jililili liyanting liyanting balabala ...

利用Hive实现WordCount(一句sql搞定）

paul250670的博客

09-02

1475

背景前面我们利用MapReduce实现了单词统计，但是比较的繁琐和复杂，要实现Map和Reduce方法。我们来看看Hive是怎么实现单词统计的呢，一条sql语句搞定。 Hive是什么 Hive是一个SQL解析引擎，将SQL语句转化成MR Job，然后在Hadoop平台上运行。 Hive不存储数据，完全依赖HDFS和MapReduce。 Hive中的表是纯逻辑表，就只是表的定义等，本质就是Ha...

使用hive实现wordcount

WYH19951220的博客

05-16

394

1.创建数据 cd data vi wc 2.上传数据 hdfs dfs -put wc /usr/ 3.创建外部表（先有数据后有表） 4.创建结果表 5.写结果 6.查询结果

在hive中实现wordcount算法

yh1009的博客

05-14

597

在Java和hive中均能进行wordcount算法，但在hive中更为简便，接下来就是在hive中实现wordcount算法的简便步骤：

Hive用户自定义函数UDAF开发

游离在社会边缘

07-21

1238

释义 UDAF是User Defined Aggregation Function的简称。UDAF用来进行聚合运算，其输入是多行数据，输出一个计算结果。如何开发 UDAF有两种实现方式：继承UDAF；或继承AbstractGenericUDAFResolver。前一种方式是简单的方式，但其使用了java的反射机制，因此性能上比后一种方式要低效，因此生产上不建议使用第一种方式。计算的逻辑...

Hive安装配置与使用详解及WordCount实例

特别值得注意的是，Hive支持分区表（PARTITIONED BY）和分桶表（CLUSTERED BY），这两种机制可以显著提升查询性能，尤其是在处理海量日志数据时，按时间或地域进行分区能有效减少扫描数据量。最后，文档通过一个...

使用hive、java api两种方式实现wordcount功能、及个人感悟

认知行动坚持

06-30

1484

使用hive、java api两种方式实现wordcount功能、及个人感悟

hive实现WordCount

sjw2020的博客

05-27

366

一、WordCount原理初学MapReduce编程，WordCount作为入门经典，类似于初学编程时的Hello World。WordCount的逻辑就是给定一个/多个文本，统计出文本中每次单词/词出现的次数。网上找的一张MapReduce实现WordCount的图例，基本描述清楚了WordCount的内部处理逻辑。本文主要是从Hive使用的角度处理WordCount，就不赘述，之前的一篇博文...

Hive--实现WordCount

qq_46893497的博客

12-07

301

select tmp.word ,count(1) as counts from (select explode(split(line, '\\s+')) word from t_wc) tmp group by tmp.word;

HiveSQL实现WordCount

边看边学

07-03

277

先把句子拆成单个单词，再行专列，再利用子查询做聚合。 select word, count(1) as cnts from (select explode(split(sentence, ",")) as word from table) t group by word order by cnts desc;

Hive实现wordcount统计

qq_48288251的博客

07-09

602

Hive实现wordcount统计创建一个数据库 1. hive> create database wordcount 创建表 1. hive> create table docs(line string) 准备数据将数据加载到 docs 表中 • 将准备的数据添加到docs 表中 • 1. hive> load data inpath (local inpath为本地路径)’/user/hadoop/input/pg20417.txt’ into table docs； •

Hive wordcount

qq_34382453的博客

10-24

479

如何使用hive进行wordcount统计如下图，我们先在hive中建一张名为wc的表，里面只有一个字段，包含以逗号隔开的数据然后使用函数split , explode,count,group by进行统计 1、先使用split将每行数据切开，这里是用逗号分隔 select split(tence,',') from wc; 2、再用explode函数将每个数据处理成一行，即每行只有一条...

Hive实现WordCount详解

weixin_30273931的博客

07-31

357

Hive入门之WordCount

吟啸徐行

06-24

479

一心只想做大数据开发的低端中级玩家都会觉着觉着写Hive SQL很无趣，对开发设计的提升不是很有利，但是真正在企业中实践的话往往会改变一些看法。因此导致现在写一篇关于Hive的WordCount文章虽然自己都会感觉自己很Low，但是当真正意识中一些事情重要的时候还是要低下头去做才是正确的选择。以上这些就是想系统学习Hive的原因，虽然自己不是一个Hive入门选手，但是还是想系统从入门...

HIVE统计WordCount