1.准备单词文件words.txt
apple orange pear apple
banana peach pear
orange apple
2.新建word_r表
create table word_r(
line string
)
3.load进数据到表
load data local inpath '/apps/words.txt' overwrite into table word_r;
4.验证
select * from word_r;

以上本质上是将txt中的行数据,转换到数据库的line列的一个单元格中。
5.编写查询sql:
explode函数的使用,其作用是可以将一个数组以列的形式组织出来
可以先在beeline中执行以下语句,将line列的单元格数据以列的形式展示出来
select explode(split(line,' ')) as word from word_r

然后进行分组count聚合统计,并将单词以升序排序
select word,count(1) as count from
(select explode(split(line,' ')) as word from word_r) w
group by word
order by word;

每次执行时候都要编写该sql,较为复杂,可以通过create select的方式建一个新的表:
create table word_count as
select word,count(1) as count from
(select explode(split(line,' ')) as word from word_r) w
group by word
order by word;
以后使用
select * from word_count
即可进行查询。

本文介绍了如何利用SQL对文本数据进行处理,通过加载txt文件到数据库,使用explode和split函数将单词拆分并进行计数,创建了一个新的表`word_count`用于存储每个单词出现的次数。此方法简化了对大量文本数据进行统计分析的过程。
2006

被折叠的 条评论
为什么被折叠?



