
Hive
文章平均质量分 80
西南偏北_
专注大数据领域(Spark、Flink、Hadoop生态、Kafka、数据仓库、数据中台...)
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive——UDF函数:高德地图API逆地理编码,实现离线解析经纬度转换省市区(离线地址库,非调用高德API)
因为历史数据量较大,如果通过调用高德API把所有历史数据中的经纬度对应的省市区请求回来,会面临一个个问题:在查看公司的高德API账户后,发现每天提供的最大调用量是300W次,那么要把历史3亿数据初始化调用完,需要30000W/300w=100天,要3个多月,这完全是不可接受的。这个第三方库的作者提供了一个2019年9月份的离线地址库文件,考虑到这个文件的数据已经比较旧了,然后去翻看作者的源码文件,发现提供了爬取地址库的源码,直接拿来改改就可以用了(但前提是你要有请求高德API的API Key)。原创 2024-07-28 14:41:18 · 907 阅读 · 0 评论 -
Hive——Hive中行转列、列转行
文章目录1. 行转列2. 列转行1. 行转列原始数据如下图:转换SQL:select name, collect_list(score) from db.grade group by name;结果:2. 列转行原始数据:转换SQL:select name, score from db.grade lateral view explode (scores) tmp as score结果:...原创 2020-11-27 21:25:43 · 227 阅读 · 0 评论 -
Hive——Hive窗口分析函数总结
文章目录窗口分析函数1. 分析函数2. 聚合函数3. 窗口函数窗口分析函数函数中用到的表数据如下图:1. 分析函数row_number()rank()dense_rank()这3个函数通常用在组内排序中,但实现的效果却不相同,用法如下:select name,subject,score, row_number() over(partition by name order by score) rn, rank() over(partition by name原创 2020-11-27 21:22:58 · 207 阅读 · 0 评论 -
Hive——Hive/HiveSQL性能优化
文章目录分区partition1. 静态分区Static Partition2. 动态分区Dynamic Partition我们知道Hive是一个构建在MapReduce之上并提供了SQL语法的查询分析引擎。虽然Hive可以处理巨量的数据,但是不同的优化手段会在处理时间上产生很大的差异。在Hive中,可以从以下几个方面进行优化:分区partition分桶bucket使用Spark/Tez作为执行引擎使用压缩使用parquet/orc格式join优化基于CBO的优化分区partitio原创 2020-11-12 22:44:11 · 798 阅读 · 0 评论 -
Hive——Hive/Spark SQL解析JSON对象、JSON数组
文章目录窗口分析函数1. 分析函数2. 聚合函数3. 窗口函数行列转换1. 行转列2. 列转行JSON处理1. JSON对象2. JSON数组时间处理 窗口分析函数函数中用到的表数据如下图:1. 分析函数row_number()rank()dense_rank()这3个函数通常用在组内排序中,但实现的效果却不相同,用法如下:select name,subject,score, row_number() over(partition by name orde原创 2020-07-14 23:53:58 · 2648 阅读 · 0 评论 -
Hive——pyhive依赖模块sasl安装(pip install sasl)报错Microsoft Visual C++ 14.0 is required
error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”: https://visualstudio.microsoft.com/downloads下载地址 https://docs.microsoft.com/zh-cn/visualstudio/releaseno...原创 2019-07-26 20:44:21 · 12666 阅读 · 23 评论