3.3.1 使用Hive实现ncdc最高气温统计
通过上面的一个wordcount的简单demo,可以基本掌握Hive的操作方法以及流程。接下来使用Hive来实现一个相对于wordcount难一些的实例,以下是具体实现的步骤:
(1) 数据准备:这里使用网上的数据资源1901.gz,输入数据类型为TextInputFormat。
(2) 创建Hive表,使用create关键字来创建基础表,具体代码如下,
create table ncdc(data string) ;
(3) 如之前的相同办法,使用load关键字加载数据文件到Hive表中。具体代码以及结果如下,
hive> load data local inpath '/home/laura/Desktop/1901.gz' into table ncdc;
hive> select * from ncdc;
0029227070999991901071506004+62167+030650FM-12+010299999V0203201N003119999999N0000001N9+01941+99999100311ADDGF100991999999999999999999
0029227070999991901071513004+62167+030650FM-12+010299999V0202701N006219999999N0000001N9+02671+99999100361ADDGF102991999999999999999999
0029227070999991901071520004+62167+030650FM-12+010299999V0202901N002119999999N0000001N9+01781+99999100601ADDGF102991999999999999999999
0029227070999991901071606004+62167+030650FM-12+010299999V0200501N001019999999N0000001N9+01891+99999100951
使用Hive处理1901年气象数据

本文通过一个实例展示了如何使用Hive处理ncdc的气象数据,包括创建表、加载数据、查询数据并提取特定字段,以及进行最高气温统计。通过数据筛选、截取和分组,得出每年的最高温度。
最低0.47元/天 解锁文章
3160

被折叠的 条评论
为什么被折叠?



