
Hive
文章平均质量分 83
Kelvin-Liang
Nothing is impossible
展开
-
SPARK & HIVE现在ACID的支持现状
在讨论之前,先介绍ACID是什么。原子性(Atomicity)原子性是指事务是一个不可分割的工作单位,事务中的操作要么都发生,要么都不发生。一致性(Consistency)事务前后数据的完整性必须保持一致。隔离性(Isolation)事务的隔离性是多个用户并发访问数据库时,数据库为每一个用户开启的事务,不能被其他事务的操作数据所干扰,多个并发事务之间要相互隔离。持久性(...原创 2019-11-12 15:22:46 · 1407 阅读 · 0 评论 -
impala+hue
下载impala 和 huehttp://www.cloudera.com/documentation/enterprise/latest/topics/cdh_vd_cdh_package_tarball.htmlhttps://archive.cloudera.com/cdh5/redhat/7/x86_64/cdh/5.5.0/RPMS/x86_64/impala i原创 2016-02-23 00:43:09 · 2942 阅读 · 0 评论 -
CentOS7安装篇(hadoop平台搭建)
为了更好学习大数据,需要搭建一个学习的环境。有误的地方希望大家共同指教。首先介绍下我的硬件:2台pc机, 酷睿i7 ,16G 内存, 2T 硬盘===============================================================================安装虚拟机VMware 10.0在VMware上安装系统 CentOS7原创 2015-04-20 16:26:59 · 1207 阅读 · 0 评论 -
性能测试 hive Use ANALYZE table columns
测试记录数: 346804534 数据大小:20GBselect eventchannel from event8 where pdate = '2015-09-01' and lower(eventchannel) rlike 'window' and eventsourcemachine rlike 'changhong' group by eventchannel having原创 2015-09-14 10:00:24 · 2117 阅读 · 0 评论 -
新旧版本FileInputFormat获得输入分片的不同
有接触过hadoop的都应该清楚InputFormat 里有个getSplits方法,用来获得输入分片,并最终影响map task的数量。网上关于split的描述千奇百怪,各家说法都不一样,前几天一个老师跟我讲的FileInputFormat的 split的概念和我脑子里一直记得的split的概念不一样,着实让我困扰,甚至开始怀疑人生了。。。今天把新旧版本的FileInputFormat的转载 2015-03-20 21:23:49 · 926 阅读 · 0 评论 -
hadoop mapreduce 对于压缩文件的支持利与弊
hadoop对于压缩文件的支持hadoop对于压缩格式的是透明识别,我们的MapReduce任务的执行是透明的,hadoop能够自动为我们 将压缩的文件解压,而不用我们去关心。 如果我们压缩的文件有相应压缩格式的扩展名(比如lzo,gz,bzip2等),hadoop就会根据扩展名去选择解码器解压。hadoop对每个压缩格式的支持,详细见下表: 压缩格式 工具转载 2015-03-20 22:55:31 · 1642 阅读 · 0 评论 -
MapReduce应用中CombineFileInputFormat原理与用法
MapReduce应用中CombineFileInputFormat原理与用法HDFS本身被设计来存储大文件,但是有时难免会有小文件出现,有时很可能时大量的小文件。通过MapReduce处理大量小文件时会遇到些问题。MapReduce程序会将输入的文件进行分片(Split),每个分片对应一个map任务,而默认一个文件至少有一个分片,一个分片也只属于一个文件。这样大量的小文件会导致大转载 2015-03-20 10:37:00 · 1268 阅读 · 0 评论 -
Hive tips optimil query on maper and reducer
hive优化之------控制hive任务中的map数和reduce数一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自转载 2015-03-16 14:40:11 · 586 阅读 · 0 评论 -
简单说说MapReduce, Tez, Spark
云码最近邀请来yunmar老师来做培训,其浮夸的授课方式略接受不了。其强烈推崇Spark技术,宣称Spark是大数据的未来,同时宣布了Hadoop的死刑。那么与Hadoop相比,Spark技术如何?现工业界大数据技术都在使用何种技术?我本人是类似Hive平台的系统工程师,我对MapReduce的熟悉程度是一般,它是我的底层框架。我隔壁组在实验Spark,想将一部分计算迁移到Spark上转载 2015-01-25 09:09:01 · 6790 阅读 · 0 评论 -
hive调优 数据倾斜问题
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时转载 2014-11-07 14:12:19 · 850 阅读 · 0 评论 -
写好Hive 程序的五个提示
使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑。但是某些情况下,因为不熟悉数据特性,或没有遵循Hive的优化约定,Hive计算任务会变得非常低效,甚至无法得到结果。一个”好”的Hive程序仍然需要对Hive运行机制有深入的了解。有一些大家比较熟悉的优化约定包括:Join中需要将大表写在靠右的位置;尽量使用UDF而不是transfrom……诸如此类。下面讨论5个性能和逻辑相关转载 2014-11-24 15:15:31 · 685 阅读 · 0 评论 -
Hive 优化
Hive 针对不同的查询进行了优化,优化可以通过配置进行控制,本文将介绍部分优化的策略以及优化控制选项。列裁剪(Column Pruning)在读数据的时候,只读取查询中需要用到的列,而忽略其他列。例如,对于查询: SELECT a,b FROM T WHERE e < 10;其中,T 包含 5 个列 (a,b,c,d,e),列 c,d 将会被忽略,只会读取a, b, e 列转载 2014-11-24 15:07:33 · 553 阅读 · 0 评论 -
Some note on using Hivesdfwq-0.123312.0.2.0.6.0-0009
1show table columns.hive>set hive.cli.print.header=true;2Enable select results on vertical style, you must enable hive.cli.print.headerfirst!hive>set hive.cli.print.row.to.vertical=true;原创 2014-03-26 16:58:32 · 714 阅读 · 0 评论 -
Hive UDF开发
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。Hive的UDF开发只需要重构UDF类的evaluate函数即可。例:package com.hrj.hive.udf;import org.apache.hadoop.hive.ql.exec.UDF;public cl转载 2014-08-18 12:43:39 · 795 阅读 · 0 评论 -
hive 查询显示列hh名 及 行转列显示
hive默认查询不会显示列名, 当一个表字段比较多的时候,往往看不出值与列之间的对应关系,对日常查错及定位问题带来不便,应同事要求,看了HIVE CLI源码,做了下些许调整, 加入列头打印及行转列显示功能未开启行转列功能之前:hive> > > select * from example_table where dt='2012-03-31-02' limit 2;转载 2014-03-26 16:32:33 · 952 阅读 · 0 评论 -
Hive UDAF开发
Hive进行UDAF开发,相对要比UDF复杂一些,不过也不是很难。请看一个例子package org.hrj.hive.udf;import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;import org.apache.hadoop.hive.serde2.io.DoubleWritable;转载 2014-08-18 12:44:26 · 714 阅读 · 0 评论