Hive3详细教程（六）基于Hive3的词频统计

最新推荐文章于 2022-10-26 10:08:14 发布

原创最新推荐文章于 2022-10-26 10:08:14 发布 · 934 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#hive #hadoop

Hive3 专栏收录该内容

9 篇文章

订阅专栏

本文介绍了如何利用SQL对文本数据进行处理，通过加载txt文件到数据库，使用explode和split函数将单词拆分并进行计数，创建了一个新的表`word_count`用于存储每个单词出现的次数。此方法简化了对大量文本数据进行统计分析的过程。

1.准备单词文件words.txt

apple orange pear apple
banana peach pear
orange apple

2.新建word_r表

create table word_r(
line string
)

3.load进数据到表

load data local inpath '/apps/words.txt' overwrite into table word_r;

4.验证

select * from word_r;

在这里插入图片描述

以上本质上是将txt中的行数据，转换到数据库的line列的一个单元格中。

5.编写查询sql：
explode函数的使用，其作用是可以将一个数组以列的形式组织出来

可以先在beeline中执行以下语句，将line列的单元格数据以列的形式展示出来

select explode(split(line,' ')) as word from word_r

在这里插入图片描述

然后进行分组count聚合统计，并将单词以升序排序

select word,count(1) as count from 
(select explode(split(line,' ')) as word from word_r) w    
group by word
order by word;

在这里插入图片描述

每次执行时候都要编写该sql，较为复杂，可以通过create select的方式建一个新的表：

create table word_count as 
select word,count(1) as count from 
(select explode(split(line,' ')) as word from word_r) w    
group by word
order by word;

以后使用

select * from word_count

即可进行查询。

在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Java朱老师

关注关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Hive实战：词频统计

howard2005的专栏

12-26

2006

本次实战聚焦于利用Hive在大数据环境下进行词频统计。我们首先在master虚拟机创建文本文件`test.txt`，并将其上传至HDFS作为数据源。接着，启动Hive Metastore服务和客户端，创建外部表`t_word`以读取和处理HDFS中的文本数据。通过精心编写的Hive SQL语句，我们运用`explode`和`split`函数拆分句子，子查询进行单词计数和分组，实现了词频统计。这个过程展示了Hive在文本数据分析处理中的强大功能，同时我们也积累了关于Hive使用细节的经验，为未来的数据处理工作

hive实战：词频统计

最新发布

xujonas的博客

01-08

1360

词频统计、hive文件上传到hdfs、hive导入外部数据

参与评论您还未登录，请先登录后发表或查看评论

Hive实现词频统计

大王来巡山的博客

06-10

3730

Hive中提供了类似于SQL语言的查询语言——HiveQL，可以通过 HiveQL语句快速实现简单的 MapReduce统计， Hive 自身可以将 HiveQL 语句快速转换成 MapReduce 任务进行运行，而不必开发专门的 MapReduce 应用程序，因而十分适合数据仓库的统计分析。通过一个简单的词频统计来初步认识hive1.本地创建两个文本文件echo “hello world”&g...

用 Hive 编写词频统计

Nahshon的博客

11-20

853

在虚拟机或是服务器编写简单版本的 Hive的词频统计：【相信此时的你，hive 环境已搭建好，来个简单的案例吧！】 ① 在服务器，编辑文本 words.txt： vi words.txt zhangsan is beijing zhangsan is running country nihao hi love hi ② 进到hive进行建表： hive> create table wc(txt String) row format delimited fields termin

【hive】在hive中实现WordCount算法

xiaoyi1212的博客

04-24

3966

这里以词频统计为例： 1、准备好自己需要词频统计的文件我这里以《西游记》为例 2、启动hive hive 查看所有数据库 show databases；使用想要使用的数据库 use hive；查看数据库hive下有哪些数据表和视图 show tables； 3、创建一个表docs create table docs(line st...

使用Hive实现词频统计

YKQCC的博客

10-24

1144

步骤：创建一个测试表 hive> create table test(line string); 加载数据文件到临时表 hive> LOAD DATA LOCAL INPATH '/user/tmp/a.txt' OVERWRITE INTO TABLE test; 加载数据文件到临时表 hive> create table word_count as select word,count(1) as count from (select explode(spl

hive词频统计

王坤华的博客

06-29

451

split以逗号分开，空格和\s都可以 select split(“kunhua kunhua minghao yanda zhulei zhengyan zhulei”," "); expeode爆开 select explode(split(“kunhua kunhua minghao yanda zhulei zhengyan zhulei”," “)); 以分组的统计个数 select word,count(*) from (select explode(split(“kunhua kunhua

Hive安装与部署并词频统计.docx

06-06

Hive是基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，适合大规模数据的离线分析。以下是安装和配置Hive的详细步骤： 1. **安装Hive** - 首先，需要在已配置好的Hadoop...

基于hadoop的词频统计.docx

06-18

在本课程设计中，学生将通过 Hadoop 平台，利用 MapReduce 编程统计《哈姆雷特》的词频，即计算每个词汇出现的次数。这个任务展示了 MapReduce 在文本分析和数据挖掘中的应用。在 map 阶段，每个单词被提取并计数，...

《Hive编程指南》一1.3　Java和Hive：词频统计算法

weixin_33829657的博客

05-02

188

本节书摘来异步社区《Hive编程指南》一书中的第1章，第1.3节，作者：【美】Edward Capriolo , Dean Wampler , Jason Rutherglen 译者：曹坤，更多章节内容可以访问云栖社区“异步社区”公众号查看。 1.3　Java和Hive：词频统计算法如果用户不是Java工程师，那么可以直接跳到下一节。如果用户是名...

02 在Hive中完成词频统计

张力的程序园

06-05

601

上一节我们在CentOS7中安装了Hive，本章将演示如何在Hive当中完成词频统计。 1 系统、软件以及前提约束在CentOS7中安装Hive并启动 https://www.jianshu.com/p/755944f01fab 所有操作都以root用户进行 2 操作 1 在/root下创建一个email文件，内容如下 HillarSt@CardBlvdsnaase.n...

Hive实现词频统计（详细讲解）

Taurus

05-22

6993

Hive中提供了类似于SQL语言的查询语言——HiveQL，可以通过 HiveQL语句快速实现简单的 MapReduce统计， Hive 自身可以将 HiveQL 语句快速转换成 MapReduce 任务进行运行，而不必开发专门的 MapReduce 应用程序，因而十分适合数据仓库的统计分析。下面介绍如何使用Hive进行词频统计。实验步骤本地创建两个文本文件 cd /usr/local/hadoop/input echo 'hello world' >> file1.txt e

计算单词出现的频次，并按频次从高到低排序

热门推荐

moreharder的博客

11-15

3万+

import collections f=open("D:\python\Walden.txt","r").read() f=f.replace(',','').replace('.','').replace('"','').replace(':','') f=f.split() r=collections.Counter(f) print(r) Counter({'the': 6937, 'and': 4547, 'of': 3472, 'to': 3058, 'a': 2966, 'I': 2

hive数据库数据次数统计排序

汐银的博客

12-11

5528

在学习hive中我们首先练笔的应该是数据统计问题：用py爬取某网站用户名并通过hive分析用户发言次数前十爬虫代码我就不列出来了将其爬下来如何上传到linux，通过cat查看然后我们将其上传到hive数据库先进hive数据库 /usr/hive/apache-hive-2.1.1-bin/bin/hive 创建表user create table user(user_...

Hive应用实例：WordCount

leoatliang的博客

10-26

1673

Hive应用实例：WordCount

Hive简单编程实践-词频统计

weixin_33696106的博客

04-06

956

一、使用MapReduce的方式进行词频统计（1）在HDFS用户目录下创建input文件夹 hdfs dfs -mkdir input 注意：林子雨老师的博客(http://dblab.xmu.edu.cn/blog/1080-2/)中是在hadoop目录下创建input文件，而MapReduce读取的是HDFS目录中的文件，因此笔者认为该博客存在错误。（2）在hadopp...

hive实现单词统计

Joy

09-03

1525

参考博客：一个hive小案例：使用HIVE进行单词统计, 并把结果存入mysql 问题：统计客户某个年龄有多少人客户表信息 hive> desc customer_info; OK id int name string age int Time taken: 0.2...

使用hive做单词统计

统木木的博客

04-03

1132

版权声明：本文为优快云博主「柯南爱上指针」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.youkuaiyun.com/qq_35468937/article/details/80752073 方法一（分步查询）： 1、首先创建一个文件单词的文件，例如a.txt kk,123,weiwei,123 hlooe,hadoop,he...

用hive做一个简单的单词统计

总分全班第一

11-17

956

1，开始学习Hadoop的时候为了练习单词统计，排序，每次都得用java编写MapReduce程序，常常一个单词统计的代码都得写很久，所以我就提前练习了一下hive语法，做一个单词的统计。 2，首先本地构造数据，数据内容如下： [hadoop@master ~]$ cat count.txt hello,world,welcome hello,welcome world,hello,hi [had...

Hive在Linux上的安装与部署及词频统计实践

3. **词频统计**：使用Hive的`COUNT()`和`GROUP BY`函数，对每个词进行计数，分组统计每个词出现的次数。 4. **结果展示**：最后，查询结果并展示词频最高的词语。这个实验不仅锻炼了对Hadoop生态组件的掌握，还...