Hive 实现WordCount

最新推荐文章于 2024-05-07 07:00:00 发布

苏先生_404

最新推荐文章于 2024-05-07 07:00:00 发布

阅读量171

点赞数

CC 4.0 BY-SA版权

分类专栏： Hive 文章标签： hive

本文链接：https://blog.youkuaiyun.com/weixin_40420525/article/details/83476749

Hive 专栏收录该内容

11 篇文章

订阅专栏

本文介绍如何使用Hive SQL进行文本数据处理，包括创建表、加载数据、使用split和explode函数切分句子为单词，以及统计各单词出现频率的方法。通过实际案例演示，帮助读者掌握Hive在大数据分析中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

准备数据

wd.txt
在这里插入图片描述

创建Hive表

create table ruoze_wc(
sentence string
);

加载数据到表中

load data local inpath '/home/hadoop/data/wd.txt' into table ruoze_wc;

查看表数据

在这里插入图片描述

执行hive

使用 split 函数按照逗号切分单词
使用explode 函数将切分好的单词数组切成多行数据
统计每个单词出现的次数

完整的sql

select word, count(1) as c
from
(
select explode(split(sentence,",")) as word from ruoze_wc
) t group by word
order by c desc;

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

苏先生_404

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

用Hive实现wordcount

Today_2018的博客

06-21

680

一、实验内容：用hive实现wordcount 二、实验步骤： 1.准备数据首先利用vi编辑器，编写一个word.txt文件，内容如下图所示： 2.创建测试数据库，命名test,输入如下命令，如图所示 create database test; 3.在test数据库中创建表wordcount create table wordcount(rowdata string); 4.加载数据代码如下 load data local inpath '/home/hadoop/word.txt' .

利用Hive实现WordCount(一句sql搞定）

paul250670的博客

09-02

1455

背景前面我们利用MapReduce实现了单词统计，但是比较的繁琐和复杂，要实现Map和Reduce方法。我们来看看Hive是怎么实现单词统计的呢，一条sql语句搞定。 Hive是什么 Hive是一个SQL解析引擎，将SQL语句转化成MR Job，然后在Hadoop平台上运行。 Hive不存储数据，完全依赖HDFS和MapReduce。 Hive中的表是纯逻辑表，就只是表的定义等，本质就是Ha...

参与评论您还未登录，请先登录后发表或查看评论

Hive实现wordcount统计

qq_48288251的博客

07-09

582

Hive实现wordcount统计创建一个数据库 1. hive> create database wordcount 创建表 1. hive> create table docs(line string) 准备数据将数据加载到 docs 表中 • 将准备的数据添加到docs 表中 • 1. hive> load data inpath (local inpath为本地路径)’/user/hadoop/input/pg20417.txt’ into table docs； •

Hive实现wordCount

arne's Blog

06-27

366

a. 创建一个数据库 create database word; b. 建表 create external table word_data(line string) row format delimited fields terminated by '\n' stored as textfile location '/home/hadoop/worddata'; 这里假设我们的数据存放在had...

Hive实现wordcount词频统计

曹利荣的博客

01-12

1792

vi wc.txt zhangs love china lisi is running china is great country beijing is the capital of china ================================================================================ hive> create tab...

HIVE统计WordCount

2301_77836489的博客

05-07

997

HIVE统计wordcount

HIVE实现wordcount过程

cqra94148的博客

12-28

319

1、建表并关联数据：进入hive命令行： hive 执行： create external table wordcounts(line string) row format delimited fields termi...

在hive中实现wordcount算法

yh1009的博客

05-14

566

在Java和hive中均能进行wordcount算法，但在hive中更为简便，接下来就是在hive中实现wordcount算法的简便步骤：

Hive 案例~使用hive实现wordcount计数

buzhidaoyaa的博客

09-26

1697

使用hive实现wordcount计数思路：（1）创建一个文件，将文件写入 vim data.txt hello kity hello lala jililili liyanting liyanting balabala balalaalalalalalalal word hello kity hello lala jililili liyanting liyanting balabala ...

hive实现WordCount

sjw2020的博客

05-27

342

一、WordCount原理初学MapReduce编程，WordCount作为入门经典，类似于初学编程时的Hello World。WordCount的逻辑就是给定一个/多个文本，统计出文本中每次单词/词出现的次数。网上找的一张MapReduce实现WordCount的图例，基本描述清楚了WordCount的内部处理逻辑。本文主要是从Hive使用的角度处理WordCount，就不赘述，之前的一篇博文...

Hive常见数据格式及存储（一）

weixin_40420525的博客

09-05

4797

引言：大数据应用中，我认为最核心的两个点就是 “存储” 和 “计算”，在现在的大数据计算中，各种计算引擎的出现，迭代优化使得数据计算能够快速的产生结果，但是数据存储以及数据格式，始终属于最为基本的，合理的数据存储以及数据格式，配合适合的计算引擎，能够使数据计算得到最大的提升，并且减少磁盘开销；这里，我使用Hive作为计算引擎，来说明数据格式对存储的重要性；常见的数据存储格式在hi...

Hive常见数据格式及存储（二）

weixin_40420525的博客

09-05

516

上一篇文章中（Hive常见数据格式及存储（一）），主要使用Hive 来做出常见的数据格式对文件存储的对比；没看过的小伙伴，建议先看下；本次，我们来具体聊聊大数据下的存储格式；行式存储在RDBMS数据库中我们存储数据都是按照一行一行来存，也是按照一行一行来读，这种按照行来存储以及来读取数据的存储方式，我们称作为行式存储，这种存储方式在HDFS中存的方式和RDBMS一样，都是将多行数据放在...

Hive DDL

weixin_40420525的博客

10-24

483

Hive的数据在哪里?? Hive的数据存放在HDFS之上（真实数据） Hive的元数据可以存放在RDBMS之上（元数据） Hive数据抽象结构图 Database: Hive 中的Database 相当于是Hdfs中的一个文件夹 Hive 默认自带一个default数据库默认数据库存放位置：/user/hive/warehouse 位置是由参数决定的：hive.metastore.w...

【每天进步一点点】【Hive窗口函数】 ROW_NUMBER RANK DENSE_RANK 三者的区别

weixin_40420525的博客

08-10

378

1. 测试数据要求，根据 domain 分组，对traffic做倒叙排序，需要得到每个domain的排序情况； 2. RANK ROW_NUMBER DENSE_RANK 窗口函数使用 SQL select domain, time, traffic, ROW_NUMBER() OVER (partition by domain order by traffic desc) rn1, RANK() OVER (partition by domain order by traffic desc) rn

【每天进步一点点】【hive窗口函数】窗口函数综合练习

weixin_40420525的博客

08-10

316

窗口函数综合练习 1.需求 1.1 数据 pk,2021-09-01,500,10.10.10.9 xingxing,2021-09-02,3500,10.10.10.10 pk,2021-02-03,46,10.10.10.9 xingxing,2021-09-04,578,10.10.10.10 pk,2021-09-05,345,10.10.10.9 pk,2021-04-06,235,10.10.10.9 xingxing,2021-09-07,78,10.10.10.10 pk,2021-0

Hive 内部表与外部表

weixin_40420525的博客

10-25

295

Hive中的表又分为内部表和外部表 ,Hive 中的每张表对应于HDFS上的一个文件夹，HDFS目录为：/user/hadoop/hive/warehouse/[databasename.db]/table 内部表创建语句这里我们采用从之前表中复制表结构和数据 create table ruoze_emp_managed as select * from ruoze_emp; 查看表结构 ...

Hive DML(数据导入导出)

weixin_40420525的博客

10-25

210

DML DML:Data Manipulation Language(数据管理语言) 加载数据到表语法 LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)] 从本地加载数据 LOAD DATA LOCAL INPATH...

Hive常见函数

weixin_40420525的博客

10-28

198

1.查看函数查看hive所有的函数 show functions; 查看函数信息 desc function 函数名; 查看函数详细信息 desc function extended 函数名; 2.时间函数显示当前日期示例显示当前时间函数说明示例显示当前时间的时间戳函数说明示例字符串转日期函数说明示例加天数函数说明示例减天数函数说明...

Hive DML 查询

weixin_40420525的博客

10-28

186

聚合函数常见的聚合函数包括 max min sum avg count,这类聚合函数,都是会执行MapReduce的 -- 求员工表中最大最小平均以及所有员工工资的和 select max(sal),min(sal),avg(sal),sum(sal) from ruoze_emp; 分组查询出现在select中的字段，要么出现在group by子句中，要么出现在聚合函数中; ...

hive应用实例 wordcount