
Hive
XiaodunLP
祝福自己.^_^
展开
-
HIve---1.Hive 基础知识
1、Hive 基本概念 1.1、Hive 简介 1.1.1、什么是 Hive原创 2019-02-03 10:36:24 · 424 阅读 · 0 评论 -
Hive性能优化(全面)解决数据倾斜等问题
Hive性能优化(全面)1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF,不怕数...原创 2019-03-01 00:58:03 · 547 阅读 · 0 评论 -
Hive的常用函数(nvl,case when,行转列,列转行,炸裂函数)
综述: NVL:case when:行转列,CONCAT,CONCAT_WS,COLLECT_SET:列转行:EXPLODE,LATERAL VIEW:综述:在Hive中有六类常用的函数,除了本文讲述的四类函数之外,还有rank函数,和开窗函数,Hive中的自定义函数一般被分成了三类UDF:uer-defined-function 一进一出UDAF:user-defin...原创 2019-02-20 20:50:46 · 4233 阅读 · 0 评论 -
Hive---关于Json格式的处理方法
hive中创建hive-json格式的表及查询在hive中对于json的数据格式,可以使用get_json_object或json_tuple先解析然后查询。也可以直接在hive中创建json格式的表结构,这样就可以直接查询,实战如下(hive-2.3.0版本):1. 准备数据源将以下内容保存为test.txt{"student":{"name":"king","age":1...原创 2019-03-19 14:24:56 · 4307 阅读 · 0 评论 -
Hive----Hive的优化常用小结
基础回顾 H i v e 数据管理 hive的表本质就是Hadoop的目录/文件 hive默认表存放路径一般都是在你工作目录的hive目录里面,按表名做文件夹分开,如果你 有分区表的话,分区值是子文件夹,可以直接在其它的M/R job里直接应用这部分数据 Name HDFS Directory Table mobile_user...原创 2019-04-06 15:13:06 · 579 阅读 · 0 评论 -
总结复制Hive表结构和数据的方法
在使用Hive的过程中,复制表结构和数据是很常用的操作,本文介绍两种复制表结构和数据的方法。1、复制非分区表表结构和数据Hive集群中原本有一张bigdata17_old表,通过下面的SQL语句可以将bigdata17_old的表结构和数据复制到bigdata17_new表:CREATE TABLE bigdata17_new AS SELECT * FROM bigdata17_o...转载 2019-04-27 23:42:02 · 899 阅读 · 0 评论 -
Hive 时间日期处理总结
select day -- 时间 ,date_add(day,1 - dayofweek(day)) ...转载 2019-04-28 00:11:37 · 2073 阅读 · 0 评论 -
hive导出查询文件到本地文件
通过HQL语句可以将hive 中表的数据生成到指定的目录。有时候 我们可以利用hive来生成统计的中间文件(比源文件小的多的)方法有如下2种:1.INSERT OVERWRITE LOCAL DIRECTORY将结果输出到指定的目录:生成的文件数 和redurcer的数目的一样的在hive中,一般情况下通过use my_hive_db;set hive.mer...原创 2019-05-20 19:22:49 · 2282 阅读 · 0 评论 -
Hive常用函数大全(一)(关系/数学/逻辑/数值/日期/条件/字符串/集合统计/复杂类型)
测试数据集:create external table if not exists order_detail(user_id string,device_id string,user_type string,price double,sales int)row format delimited fields terminated by '\t'lines terminated...转载 2019-05-13 15:53:57 · 438 阅读 · 0 评论 -
Hive常用函数大全(二)(窗口函数、分析函数、增强group)
窗口函数与分析函数应用场景:(1)用于分区排序(2)动态Group By(3)Top N(4)累计计算(5)层次查询窗口函数FIRST_VALUE:取分组内排序后,截止到当前行,第一个值LAST_VALUE: 取分组内排序后,截止到当前行,最后一个值LEAD(col,n,DEFAULT) :用于统计窗口内往下第n行值。第一个参数为列名,第二个参数为往下第n行...转载 2019-05-13 16:02:27 · 2960 阅读 · 0 评论 -
hive的中的sql的执行顺序
在hive的执行语句当中的执行查询的顺序:这是一条sql:select … from … where … group by … having … order by …执行顺序:from … where … select … group by … having … order by …其实总结hive的执行顺序也是总结mapreduce的执行顺序:MR程序的执行顺序:m...原创 2019-05-18 01:40:02 · 2136 阅读 · 0 评论 -
Hive--参数优化
一、Map阶段的优化(Mapphase)1.Map数的计算公式为:num_Map_tasks=max[${Mapred.min.spilt.size},min(${dfs.block.size},${Mapred.max.split.size})]Mapred.min.spilt.size指的是数据的最小分割单元大小(默认为1B)Mapred.max.split.size指的是数据...原创 2019-06-20 14:42:32 · 475 阅读 · 0 评论 -
Hive----Hive中文乱码
目录Hive注释中文乱码针对元数据库metastore中的表,分区,视图的编码设置1、进入数据库 Metastore 中执行以下 5 条 SQL 语句2、修改 metastore 的连接 URL验证 正文回到顶部Hive注释中文乱码创建表的时候,comment说明字段包含中文,表成功创建成...原创 2019-02-24 02:08:37 · 314 阅读 · 0 评论 -
Hive----DbVisualizer配置连接hive
目录一、安装DbVisualizer二、配置DbVisualizer里的hive jdbc1、在DbVisualizer的安装目录jdbc文件夹下新建hive文件夹2、拷贝Hadoop的相关jar包放入新建的hive文件夹里面3、拷贝Hive的相关jar包放入新建的hive文件夹里面4、结果5、在tools/Driver manager中进行配置6、在Tool--Driver manage...原创 2019-02-24 01:48:13 · 377 阅读 · 0 评论 -
hive数据倾斜原因分析及解决方案
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的...原创 2019-02-21 18:35:10 · 708 阅读 · 0 评论 -
HIve ----2、Hive 环境搭建
目录Hive 环境搭建 2.1、Hive 安装 2.1.1、内嵌 Derby 版本 2.1.2、 外置 MySQL 版本 2.1.3、Linux RPM 方式安装 MySQL 前面的博客有写过这个方面,这里做一些补充增加远程登陆权限,执行以下两个命令: 2.2、Hive 使用方式,即三种连接方式 2.2.1、CLI 2.2.2、HiveServer2/bee...原创 2019-02-03 10:50:10 · 316 阅读 · 0 评论 -
Hive----3、Hive 基本使用
1、 创建库:create database if not exists mydb;2、 查看库:show databases;3、 切换数据库:use mydb;4、 创建表:create table if not exists t_user(id string, name string) 或 create table t_user(id string, name string) r...原创 2019-02-03 10:51:39 · 272 阅读 · 0 评论 -
Hive 基本操作 ---DDL
目录1、DDL 操作 1.1、库操作 1.1.1、创建库 1.1.2、查看库 1.1.3、删除库 1.1.4、切换库 1.2、表操作 1.2.1、创建表 1.2.2、修改表 1.2.3、删除表 1.2.4、清空表 1.3、其他辅助命令 1、DDL 操作 1.1、库操作 1.1.1、创建库 语法结构: CREAT...原创 2019-02-03 11:13:30 · 317 阅读 · 0 评论 -
Hive----Hive 基本操作 ---DML
目录2、DML 操作 2.1、Load 装载数据 2.2、Insert 插入数据 语法结构: 2.3、Insert 导出数据 2.4、Select 查询数据 2.5、Hive Join 查询 语法结构: 2、DML 操作 2.1、Load 装载数据 说明:1、 LOAD 操作只是单纯的复制或者移动操作,将数据文件移动到 Hive 表对应的位置。 ...原创 2019-02-03 11:31:14 · 270 阅读 · 0 评论 -
Hive----Hive进阶操作(一) 数据类型和视图
目录1、Hive 数据类型 1.1、原子数据类型1.2、复杂数据类型 1.3、示例演示: 1.3.1、array 1.3.2、map 1.3.3、struct 1.3.4、uniontype 参考资料:http://yugouai.iteye.com/blog/1849192 2、视图 1、Hive 数据类型 1.1、原子数据类型1、Hiv...原创 2019-02-03 19:45:45 · 595 阅读 · 0 评论 -
Hive----Hive进阶操作(二) 函数
目录Hive 函数 3.1、Hive 内置函数 3.2、Hive 自定义函数 UDF3.2.1、一个简单的 UDF 示例 3.2.2、Json 数据解析 UDF 开发 3.2.3、Transform 实现 Hive 函数 3.1、Hive 内置函数 1、内容较多,见《Hive 官方文档》https://cwiki.apache.org/confluenc...原创 2019-02-03 20:16:34 · 680 阅读 · 0 评论 -
Hive----Hive进阶操作(三) HIVE 特殊分隔符处理
HIVE 特殊分隔符处理 补充:hive 读取数据的机制:1、 首先用 InputFormat<默认是:org.apache.hadoop.mapred.TextInputFormat >的一个具体实 现类读入文件数据,返回一条一条的记录(可以是行,或者是你逻辑中的“行”)2、 然后利用 SerDe<默认:org.apache.hadoop.hive.serde2.l...原创 2019-02-03 20:45:21 · 1391 阅读 · 0 评论 -
Hive----Hive应用1.Hive shell 操作
1、Hive shell 操作 1.1、Hive 命令行 这是 hive 支持的一些命令: Command Descriptionquit Use quit or exit to leave the interactive shell. set key=value Use this to set value of particular configuration ...原创 2019-02-03 20:54:30 · 379 阅读 · 0 评论 -
Hive----Hive应用2.数据倾斜
数据倾斜 1、什么是数据倾斜? 由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点 2、Hadoop 框架的特性A、不怕数据大,怕数据倾斜B、Jobs 数比较多的作业运行效率相对比较低,如子查询比较多C、 sum,count,max,min 等聚集函数,通常不会有数据倾斜问题 3、主要表现: 任务进度长时间维持在 99%或者 100%的附近,查看任务监控页面,发现只...原创 2019-02-04 00:20:21 · 205 阅读 · 0 评论 -
Hive----3.Hive 执行过程实例分析
Hive 执行过程实例分析 1、Hive 执行过程概述 Hive 将 HQL 转换成一组操作符(Operator),比如 GroupByOperator, JoinOperator 等 操作符 Operator 是 Hive 的最小处理单元每个操作符代表一个 HDFS 操作或者 MapReduce 作业Hive 通过 ExecMapper 和 ExecReducer 执行 Ma...原创 2019-02-04 22:48:05 · 324 阅读 · 0 评论 -
Hive----4.Hive 优化策略
Hive 优化策略 1、Hadoop 框架计算特性 1、数据量大不是问题,数据倾斜是个问题2、jobs 数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次 汇总,产生十几个 jobs,耗时很长。原因是 map reduce 作业初始化的时间是比较长的3、sum,count,max,min 等 UDAF,不怕数据倾斜问题,hadoop 在 map 端的汇总合并优...原创 2019-02-04 23:01:30 · 255 阅读 · 0 评论 -
最近实践1---hive2.x参数
hive.exec.compress.output=false mapreduce.output.fileoutputformat.compress=false hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat mapred.max.spl...原创 2019-08-01 13:11:25 · 400 阅读 · 0 评论