这一篇文章的题目来源于2022安徽省大数据网络赛的大数据分析部分。为了保证题目的完整性我把前面几问也贴出来了,如果您只是想查看一下思路可以忽略前面直接跳到思路部分。
数据结构说明:
user_low_carbon 用户蚂蚁森林低碳生活记录流水表
-
- 字段 描述 类型
-
- user_id 用户ID String
-
- data_dt 日期 String
-
- low_carbon 减少碳排放(g) Int
plant_carbon 蚂蚁森林植物换购表
-
- 字段 描述 类型
-
- plant_id 植物编号 String
-
- plant_name 植物名 String
-
- low_carbon 换购植物所需要的碳 Int
注意,数据文件名称分别与表名称对应,(字段分隔符为“,”)
1、 创建一个数据库,以你的用户名命名,创建成功后使用use命令切换为该库,并执行set hive.cli.print.current.db=true;截图(2分)
1)命令截图:
2)执行命令结果截图:
2、根据表结构在HIVE中创建所需表,并写出建表语句(3分)
1) 创建hive表语句截图:
2)创建成功,执行show tables;截图;
3、将数据加载到表中,写出加载数据的语句(3分)
- 导入第2步 创建表中的语句截图;
2)执行 select * from table_name 并截图(其中table_name 为前面创建的表名)
前面几问都比较常见因此我没有展开说,后面两问比较有难度因此我进行一定的思路阐述