
hive
yangbosos
这个作者很懒,什么都没留下…
展开
-
复制Hive表结构和数据的方法
在使用Hive的过程中,复制表结构和数据是很常用的操作,本文介绍两种复制表结构和数据的方法。1、复制非分区表表结构和数据Hive集群中原本有一张bigdata17_old表,通过下面的SQL语句可以将bigdata17_old的表结构和数据复制到bigdata17_new表:CREATE TABLE bigdata17_new AS SELECT * FROM bigdata17_ol...转载 2019-03-20 14:08:59 · 3508 阅读 · 0 评论 -
Spark2 sparkSession使用
package com.jdjr.city.demoimport org.apache.spark.sql.SparkSession/** * @Auther: hongwei * @Date: 2018/11/9 16:31 * @Description: SparkSession使用 */object Test4 { def main(args: A...转载 2019-04-28 18:15:32 · 1397 阅读 · 0 评论 -
HIVE 函数分类 (udf、udaf、udtf)
注释: 在Hive中,用户可以自定义一些函数,用于扩展HiveQL的功能,而这类函数叫做UDF(用户自定义函数)。UDF分为两大类:UDAF(用户自定义聚合函数)和UDTF(用户自定义表生成函数)。Hive内置函数实际上Hive内置了很多函数,包括关系/算数/逻辑操作符都属于函数hive提供的build-in函数包括以下几类:1. 关系操作符:包括...转载 2019-04-19 13:10:04 · 1000 阅读 · 0 评论 -
集成Hive与Spark SQL及代码实现
结构上Hive On Spark和SparkSQL都是一个翻译层,把SQL翻译成分布式可执行的Spark程序。Hive和SparkSQL都不负责计算。hive编译如果不是采用CDH在线自动安装和部署的话,可能需要对源码进行编译,使它能够兼容HIVE。编译只需要在Spark_SRC_home(源码的home目录)执行如下命令:./make-distribution.sh --tgz -...转载 2019-04-23 09:06:39 · 507 阅读 · 0 评论 -
spark+hive运行时没有写权限
当使用spark连接hive时,无论是通过spark-submit提交作业,还是使用spark-shell,spark-sql 都会报以下错误:Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: The root scratch dir: /tmp/hive on HDFS sho...转载 2019-04-22 16:59:42 · 2131 阅读 · 0 评论 -
hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。但是对于大量数据这将会消耗很长的时间去执行。 这里跟传统的sql还有一点...翻译 2019-04-03 11:08:05 · 230 阅读 · 0 评论 -
Hive Fetch抓取(Hive可以避免进行mr)
Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为mo...转载 2019-04-03 09:22:52 · 351 阅读 · 0 评论 -
Hive性能优化--全面解决数据倾斜等问题
1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在m...转载 2019-04-01 08:35:46 · 543 阅读 · 1 评论 -
sqoop导oracle数据到hive中并动态分区
静态分区:在hive中创建表可以使用hql脚本:test.hqlUSE TEST;CREATE TABLE page_view(viewTime INT, userid BIGINT, page_url STRING, referrer_url STRING, ip STRING COMMENT 'IP Address of the User') COMMEN...转载 2019-03-30 23:05:32 · 1610 阅读 · 1 评论 -
Hive架构优点及使用场景
Hive在大数据生态环境中的位置Hive架构图 client 三种访问方式 1、CLI(hive shell)、command line interface(命令行接口) 2、JDBC/ODBC(java访问hive), 3、WEBUI(浏览器访问hive) Meta store 元数据存储 元数据包括:表名、表所属的数据库(默认是default)、表的拥有者、...转载 2019-04-03 21:32:54 · 351 阅读 · 0 评论 -
查询Parquet格式表异常问题
Fayson的github: https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1诡异现象在Fayson的测试测试环境下有一张Parquet格式的表,由于业务需要对表的字段名称数据类型进行了修改和新增列等操作,导致使用Hive和Impala查询显示的结果不一致问题。Impala查询表时由于数据类型问题直接抛出异常:...转载 2019-03-22 07:45:42 · 4647 阅读 · 0 评论 -
Hive之数据倾斜的原因和解决方法
数据倾斜 在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,...转载 2019-03-17 18:14:10 · 192 阅读 · 0 评论 -
Hive数据倾斜解决方法总结
Hive数据倾斜解决方法总结 数据倾斜是进行大数据计算时最经常遇到的问题之一。当我们在执行HiveQL或者运行MapReduce作业时候,如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。数据倾斜其实是进行分布式计算的时候,某些节点的计算能力比较强或者需要计算的数据比较少,早早执行完了,某些节点计算的能力较差或者由于此节点需要计算的数据比较多,导致出现其...转载 2019-03-17 18:10:45 · 214 阅读 · 0 评论 -
常用的Hive优化技巧
Hive优化最体现程序员的技术能力,面试官在面试时最喜欢问的就是Hive的优化技巧。技巧1.控制reducer数量下面的内容是我们每次在hive命令行执行SQL时都会打印出来的内容:In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reduc...转载 2019-03-20 20:13:52 · 280 阅读 · 0 评论 -
使用MSCK命令修复Hive分区
最近在使用Hive的过程中,在备份数据时,经常会使用cp或mv命令来拷贝数据,将数据拷贝到我们新建备份表的目录下面,如果不是分区表,则上面的操作之后,新建的备份表可以正常使用,但是如果是分区表的,一般都是使用alter table add partition命令将分区信息添加到新建的表中,每添加一条分区信息就执行一个alter table add partition命令,如果分区数...转载 2019-03-20 17:40:23 · 1108 阅读 · 0 评论 -
不同hadoop集群之间迁移hive数据
#!/bin/bash#set -xDB=$1#获取hive表定义ret=$(hive -e 'use ${DB};show tables;'|grep -v _es|grep -v _hb|grep -v importinfo)for tem in $ret;do hive -e "use ${DB};show create table $tem" >> /t...转载 2019-03-20 17:36:52 · 443 阅读 · 0 评论 -
hive表的存储格式; ORC格式的使用
hive表的源文件存储格式有几类: 1、TEXTFILE 默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。源文件可以直接通过hadoop fs -cat 查看 2、SEQUENCEFILE 一种Hadoop API提供的二进制文件,使用方便、可分割、可压缩等特点。 SEQUENCEFILE将数据以<key,value&g...转载 2019-04-19 15:27:46 · 1767 阅读 · 0 评论