
hive
文章平均质量分 65
彩笔程序猿zxxxx
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hive 经纬度之间的距离
1.hive函数计算计算公式如下:6378137*2*ASIN(SQRT(POWER(SIN((ta.start_point_lat-ta.end_point_lat)*ACOS(-1)/360),2) +COS(ta.start_point_lat*ACOS(-1)/180)*COS(ta.end_point_lat*ACOS(-1)/180)*POWER(SIN((ta.start_point_lng-ta.end_point_lng)*ACOS(-1)/360),2))) as di原创 2020-09-14 16:41:01 · 1768 阅读 · 0 评论 -
Hive分析窗口函数: LAG、LEAD、FIRST_VALUE、LAST_VALUE
目录1.数据准备1.1数据格式1.2创建表2.LAG2.1函数说明2.2函数使用2.3 查询结果2.4 结果说明3. LEAD3.1 函数说明3.2 函数使用3.3 查询结果4.FIRST_VALUE4.1 函数说明4.2 函数使用5.LAST_VALUE5.1 函数说明5.2 函数使用5.3 查询结果5.4 取...原创 2019-07-17 17:22:06 · 28718 阅读 · 3 评论 -
Hive分析窗口函数 GROUPING SETS、GROUPING__ID
目录1.概述2.数据准备2.1数据格式2.2创表语句3.GROUPING SETS和GROUPING__ID3.1 GROUPING SETS例13.1.1查询语句3.1.2等价于3.1.3查询结果3.1.4 结果说明3.2GROUPING SETS 例23.2.1 查询语句3.2.2 等价于3.2.3 查询结果3.3GROU...原创 2019-06-26 17:34:31 · 5377 阅读 · 0 评论 -
Hive的性能优化以及数据倾斜
hive性能优化一、Map阶段的优化:(控制hive任务中的map数,确定合适的map数,以及每个map处理合适的数据量)。map个数影响因子:input目录中文件总个数; input目录中每个文件大小; 集群设置的文件块大小(默认为128M, 可在hive中通过set dfs.block.size;命令查看,不能在hive中自定义修改);举例:input目录中有1个文件...原创 2018-08-23 00:29:48 · 340 阅读 · 0 评论 -
hive的架构及执行过程
编译器将Hive SQL 转换成一组操作符(Operator)操作符是Hive的最小处理单元每个操作符处理代表一道HDFS操作或MapReduce作业 Hive编译过程:将SQL转换成抽象语法树 Parser 将抽象语法树转换成查询块 Semantic Analyzer 将查询块转换成逻辑查询计划 Logic Plan Gener...原创 2018-08-23 00:15:00 · 774 阅读 · 0 评论 -
hive自定义函数
【分类】•UDF(User-Defined-Function) :处理一进一出例如:length(string)、substr(string|binary A, int start) 、date_add(string startdate, int days)、 split(string str, string pat)•UDAF(User-Defined-Aggregation-Fun...原创 2018-08-09 20:38:57 · 438 阅读 · 0 评论 -
hive查询-排序
select * from test_table order by income;select * from test_table sort by income;Insert overwrite local directory ‘/home/hadoop/out’ select * from test_table destribute by city_id;SELECT col1, ...原创 2018-08-09 20:35:10 · 603 阅读 · 0 评论 -
hive的分区
表分区•分区列对应目录•作用:辅助查询,缩小查询范围,加快数据的检索速度和对数据按照一定的规格和条件进行管理•添加分区alter table ods_cities add if not exists partition(year='2015', month='09', day='01') location '/user/xiaoju/data/bi/gal_dw/ods_cit...原创 2018-08-09 20:31:48 · 358 阅读 · 0 评论 -
hive的性能优化
1、计算数据优化计算数据优化主要有两种思路,一种是减少处理数据量;一种是解决数据倾斜。数据倾斜一般可以分为三种: Mapper阶段数据倾斜 Join阶段数据倾斜 Reduce阶段数据倾斜1.1 Mapper阶段数据倾斜主要有两种方式:可以修改读取数据的表的任务,最后插入数据时按照均衡的key值重新分布。也就是在最后加上distribute by *** 如果Mapper的任...原创 2018-07-30 13:39:14 · 2544 阅读 · 0 评论 -
hive优化的总结
长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时是跑不完的。map reduce作业初始化的时间是比较长的。3.对sum,count来说,不存在数据倾斜问题。4.对count(distinct ),效率较低,数据量一多,准出问题...原创 2018-07-30 13:38:25 · 224 阅读 · 0 评论 -
Hive ClassNotFoundException: Class org.apache.hadoop.hive.contrib.serde2.RegexSerDe not found
在Hive的测试中,发现使用正则表达式的字段分隔方式时,总是进行不下去,创建表的语句如下:create table if not exists my_hive.bf_log_src(remote_addr string,remote_user string,time_local string,request string,status string,body_bytes_sent str原创 2017-08-31 17:28:27 · 3815 阅读 · 0 评论