
Hive
文章平均质量分 93
九度-
资深数据研发工程师
展开
-
hive编译、调度执行原理和Join、group by、distribute by及排序原理
本文首先介绍hive系统架构、编译过程和查询执行流程,接下来介绍hive编译形成的MRjob调度过程和MR原理,最后介绍了常见算子Join、group by、distribute by及排序的原理。一、hive编译和执行1.1 hive系统架构1.2hive编译过程1.3hive查询执行流程二、job调度Application在Yarn中的执行过程,如需了解详细执行过程请点击:Yarn的执行过程细分三、job执行引擎(MapReduce原理)MapRedu..原创 2021-05-04 15:23:19 · 1755 阅读 · 1 评论 -
hive常用窗口函数和行列转化函数
一、Hive常用窗口函数排序类:ROW_NUMBER()、RANK()、DENSE_RANK()等取值类:FIRST_VALUE(col)、LAST_VALUE(col)、LEAD(col,n,DEFAULT)、LAG(col,n,DEFAULT)等聚合类:COUNT()、SUM()、MIN()、MAX()、AVG()等二、应用场景用于分组排序、动态Group By、Top N、累计计算、层次查询。三、应用举例3.1 分组排序窗口函数举例分组排序 解释 ROW_NUMB原创 2021-05-04 15:10:26 · 963 阅读 · 1 评论 -
Hive基本语法、基本原理和优化方法
背景为方便很多新同学的学习,介绍企业常用的hive工具,帮助大家快速的融入。一、Hive简介1.1 怎么来Facebook有一帮人牛人觉得写MapReduce任务太费事了,然后搞了一个支持类SQL开发工具,把sql转化为MapReduce任务,并发执行。1.2 是什么基于Hadoop的一个数据仓库工具;结构化数据映射成表,通过类SQL语言查询和分析数据,称为HiveQL(HQL);Hive将SQL编译转化为MapReduce job,通过Hadoop集群执行。如下如:hive原创 2021-04-28 20:40:59 · 3187 阅读 · 0 评论 -
考拉验数(自动化验数)设计方案和实现
目录前言一、 背景&现状二、 目标三、 收益&效果衡量四、 技术方案&实现五、 技术实现六、系统展示前言首先说一下名字的由来,憨萌憨萌的考拉 ???????????? 考拉 考拉(验数)特点 憨萌小考拉特性 提高业务、开发人员的工作效率,用了考拉(验数工具)提高了效率,有很多的时间可以用来休息喽 它每天18个小时处于睡原创 2021-04-08 14:48:25 · 2436 阅读 · 7 评论 -
SparkSQL in中使用子查询耗时高如何优化
目录一、背景二、用join替代in三、用join替换in且map端Join四、用Join替换in的坑一、背景经常遇到MySQL表太大,频繁查询影响性能,需要把MySQL数据同步到hive(通过解析MySQL binlog同步数据到hive),MySQL表一般会有create_time和update_time字段,如何同步到hive方便查询呢?我们采用的方式是按天快照,更新...原创 2019-08-08 13:35:50 · 6115 阅读 · 0 评论 -
Presto如何使用md5
selectmd5(to_utf8(concat( if(id is null, '-', cast(id as VARCHAR)), if(city_id is null, '-', cast(city_id as VARCHAR)), if(user_id is null, '-', cast(user_id as VARCHAR)), ...原创 2019-06-18 19:54:54 · 2971 阅读 · 1 评论 -
第94课:Hive性能调优之Mapper和Reducer设置、队列设置和并行执行、JVM重用和动态分区、Join调优等
为什么要队列设置???因为Hadoop大数据生态系统上面会运行很多作业,为了更好的管理资源限制的要求Hadoop提出了队列,队列就是不同类型资源分配和使用的标签。JVM重用Hadoop的JVM是可以重用的,相当于spark的线程的重用。JVM 重用在有很多小文件的时候非常有用hive> EXPLAIN select * from employeeforhaving;OK...原创 2016-12-10 18:19:57 · 3667 阅读 · 0 评论 -
上亿条数据,如何比对并发现两个表数据差异
目录一、背景二、分析流程三、验数方法3.1 数据量级比对3.2 一致性比对3.2.1勾稽验证+md5方法3.2.2 暴力比对法3.3差异数据发现四、总结一、背景做数据,经常遇到数据验证,很烦很枯燥,即耗时又耗人,但又必须去做。如何去做数据验证,并标准化整个流程,让验数变得轻松。二、分析流程……相同表结构数据验证:比如修改表逻辑相似表结...原创 2019-04-13 12:22:17 · 17859 阅读 · 5 评论 -
hive表新增字段和字段注释修改
hive表新增字段,修改字段的注释原创 2018-01-15 17:24:50 · 145675 阅读 · 2 评论 -
第90课:Hive中电影评价系统案例数据建模、数据过滤、Join多表关联、Map端Join、原理剖析等
第90课:Hive中电影评价系统案例数据建模、数据过滤、Join多表关联、Map端Join、原理剖析原创 2016-12-08 12:00:31 · 1083 阅读 · 0 评论 -
第91课:Hive中Index和Bucket案例实战及存储类型实战详解
Hive中Index和Bucket案例实战及存储类型实战详解原创 2016-12-10 18:04:00 · 834 阅读 · 0 评论 -
第93课:Hive中的内置函数、UDF、UDAF实战
Hive中的内置函数、UDF、UDAF实战原创 2016-12-10 18:17:36 · 1348 阅读 · 0 评论