
Hive
文章平均质量分 65
龙明倩
架构设计、BI管理开发、大数据研究杂项
展开
-
Hive 查询优化【引文】
Hive 查询优化【引文】 (2012-07-18 18:35:48)转载▼原文地址:http://www.open-open.com/lib/view/open1341214750402.html一、join优化Join查找操作的基本原则:应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段,位于 Join 操作转载 2014-03-05 10:13:24 · 848 阅读 · 0 评论 -
hive-调优笔记:JVM重用,并行执行、调整reducer个数的用处
解释:1、JVM重用是hadoop调优参数的内容,对hive的性能具有非常大的影响,特别是对于很难避免小文件的场景或者task特别多的场景,这类场景大多数执行时间都很短。hadoop默认配置是使用派生JVM来执行map和reduce任务的,这是jvm的启动过程可能会造成相当大的开销,尤其是执行的job包含有成千上万个task任务的情况。 JVM重用可以使得JVM实例在同一个JOB中重原创 2014-03-17 20:01:40 · 11808 阅读 · 0 评论 -
Hive配置项的含义详解
认为在运行hive sql时可以根据数据情况进行设置,当然还有一些join的优化的配置需要单独研究。 mapred.reduce.tasks:每个作业的reduce任务数,默认是hadoop client的配置1个;hive.exec.reducers.bytes.per.reducer:每个reducer的大小,默认是1G,输入文件如果是10G,那么就会起10个reduc转载 2014-03-17 20:35:31 · 988 阅读 · 0 评论 -
Hive 中的日志
日志记录了程序运行的过程,是一种查找问题的利器。Hive中的日志分为两种1. 系统日志,记录了hive的运行情况,错误状况。2. Job 日志,记录了Hive 中job的执行的历史过程。系统日志存储在什么地方呢 ?在hive/conf/ hive-log4j.properties 文件中记录了Hive日志的存储情况,默认的存储情况:hive.root.log转载 2014-03-17 16:10:28 · 560 阅读 · 0 评论 -
kettle采用Hadoop Copy Files出现权限不足的问题
kettle设计如下:测试例子说明:SQL控件,是直接连接HIVE环境,truncate table table;Hadoop Copy Files 是拷贝ETL服务器一个文件到对应的hadoop目录下,也就是HIVE表所在的表目录Hadoop Copy Files 设置如下:执行job,提示权限不足:原创 2014-03-20 11:45:57 · 5646 阅读 · 1 评论 -
hive中UDF、UDAF和UDTF使用
hive中UDF、UDAF和UDTF使用 2012-06-19 15:49:22| 分类: 云计算 | 标签:hive |举报|字号 订阅Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查转载 2014-04-17 11:30:54 · 21871 阅读 · 0 评论 -
kettle操作HIVE,可以链接,但不能取数的问题
进行hadoop copy file后,hive也可以在kettle进行脚本操作!今天遇到一个问题,kettle采用“表输入”的方式获取数据,输出到文件或者库,问题:2014/03/25 11:36:55 - hadoop_hive_test - ERROR (version 4.4.0-stable, build 17588 from 2012-11-21 16.02.21 by原创 2014-03-25 12:41:15 · 8648 阅读 · 5 评论 -
hive-错误-处理解压文件gz出错
gz压缩文件上传到hdfs,hive读取处理Task with the most failures(4): -----Task ID: task_1456816082333_1354_m_000339URL: http://xxxx:8088/taskdetails.jsp?jobid=job_1456816082333_1354&tipid=task_14原创 2016-03-02 00:00:10 · 2727 阅读 · 1 评论 -
hive函数-regexp_extractd的例子
正则表达式解析函数:regexp_extract语法: regexp_extract(string subject, string pattern, int index) 返回值: string说明:将字符串subject按照pattern正则表达式的规则拆分,返回index指定的字符。注意,在有些情况下要使用转义字符举例:hive> select regexp_extract原创 2016-03-02 10:47:42 · 4633 阅读 · 0 评论 -
MapReduce任务Shuffle Error错误
调整hive去重的SQL,采用collect_set去重,根据唯一值MD5去重,效果貌似可以提升,但是遇到错误:Task with the most failures(4): -----Task ID: task_1458621585996_246153_r_000000URL: http://bis-newnamenode-s-01:8088/taskdeta转载 2016-06-30 09:06:54 · 1477 阅读 · 1 评论 -
hive 1.2.1的常量大坑bug
同事发现在hive 1.2.1和hive 0.13版本里面赋值常量,同样的SQL,得到结果是不同的, SQL如下:insert overwrite table testselect month_id, client_version, mac_id, 202030106 as kpi_id, kpi_value,原创 2016-07-07 17:48:04 · 2384 阅读 · 0 评论 -
hive_调优笔记一EXPLAIN解析
接触越多,越需要了解hive背后的理论知识以及底层的一些实现细节,会让用户更加高效地使用Hive --摘于HIVE 编程指南. ----1 使用EXPLAIN 了解Hive是如何工作,第一个就是需要了解EXPLAIN功能 使用例子: hive >explain select sum(id) from my;OKABSTRACT原创 2014-03-15 09:25:22 · 19811 阅读 · 0 评论 -
hive优化之-控制hive任务中的map数和reduce数
hive优化之-控制hive任务中的map数和reduce数一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数转载 2014-03-07 15:11:42 · 19659 阅读 · 3 评论 -
Hive作业优化总结(来自一号店)
Hive作业优化总结 目录Hive作业优化总结... 1一、Hadoop 计算框架的特性... 1二、优化常用的手段... 2三、优化案例... 21、Join原则... 22、笛卡尔积... 23、控制Map数... 34、设置合理reducer个数... 35、合并MapReduce操作... 4转载 2014-03-07 15:07:04 · 1443 阅读 · 0 评论 -
hive文件存储格式
hive文件存储格式hive文件存储格式包括以下几类:TEXTFILESEQUENCEFILERCFILE自定义格式其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。SequenceFile,RCFile格式的表不能直接从本地文件导入数据,数据要先导入到textfile格式的表中,然后再从textf转载 2014-03-10 21:38:16 · 552 阅读 · 0 评论 -
hive中合理使用union all与multi insert
hive中合理使用union all与multi insert (2013-12-06 20:30:00)转载▼标签: 杂谈分类: Hive[转]http://superlxw1234.iteye.com/blog/1536440对同一张表的union all 要比多重insert快的多,原因是hi转载 2014-03-05 10:28:23 · 6507 阅读 · 0 评论 -
hive 桶相关特性分析
hive 桶相关特性分析1. hive 桶相关概念 桶(bucket)是指将表或分区中指定列的值为key进行hash,hash到指定的桶中,这样可以支持高效采样工作。 抽样(sampling)可以在全体数据上进行采样,这样效率自然就低,它还是要去访问所有数据。而如果一个表已经对某一列制作了bucket,就可以采样所有桶中指定序号的某个桶,这就减少转载 2014-03-10 21:00:48 · 645 阅读 · 0 评论 -
HIVE RCFile高效存储结构
本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在 MapReduce环境下的大规模数据分析中扮演重要角色。Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中,提供了一套类数据转载 2014-03-10 21:35:58 · 570 阅读 · 0 评论 -
hive的文件格式-RCfile
Facebook数据仓库揭秘说到,RCFile(Record Columnar File)存储结构遵循的是“先水平划分,再垂直划分”的设计理念,它结合了行存储和列存储的优点:首先,RCFile保证同一行的数据位于同一节点,因此元组重构的开销很低;其次,像列存储一样,RCFile能够利用列维度的数据压缩,并且能跳过不必要的列读取RCfile是HIVE的列式存储,压缩通常会原创 2014-03-12 13:53:59 · 2092 阅读 · 0 评论 -
HIVE中map,array和structs使用
HIVE中map,array和structs使用 1:怎样导入文本文件(格式是怎样的?),2:怎样查询数据,已经能否在join中使用?在子查询中使用?等等知道怎么在hive中导入数组不?例如:我想把 数组[1,2,3] 和 数组 ["a","b","c"]导入到table1中create table table2 ( a array , b array)转载 2014-03-07 15:23:43 · 648 阅读 · 0 评论 -
Hive 内建操作符与函数开发
第一部分:关系运算Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: •小于比较: •小于等于比较: •大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RLIKE转载 2014-03-07 15:35:25 · 550 阅读 · 0 评论 -
Hive 参数
第一部分:Hive 参数hive.exec.max.created.files•说明:所有hive运行的map与reduce任务可以产生的文件的和•默认值:100000 hive.exec.dynamic.partition•说明:是否为自动分区•默认值:falsehive.mapred.reduce.tasks.spec转载 2014-03-07 15:33:17 · 593 阅读 · 0 评论 -
hive-同一份数据多种处理
hive 提供了一个独特的语法,可以从一个数据源产生多个数据聚合,无需每次聚合都要重新扫描一次。对于大的数据输入集来说,可优化节约非常可观的时间。例子: hive > from table1 > INSERT OVERWRITE TABLE2 select * where action='xx1' > INSERT OVERWR原创 2014-03-13 11:48:01 · 5173 阅读 · 0 评论 -
hive导出查询文件到本地文件的2种办法
hive导出查询文件到本地文件的2种办法 通过HQL语句可以将hive 中表的数据生成到指定的目录。有时候 我们可以利用hive来生成统计的中间文件(比源文件小的多的)方法有如下2种: 1.INSERT OVERWRITE LOCAL DIRECTORY将结果输出到指定的目录:生成的文件数 和redurcer的数目的一样的在hive下面执行INSE转载 2014-03-13 11:27:08 · 943 阅读 · 0 评论 -
解决KETTLE调用http传输中文参数的问题
场景:检查服务器异常(hive)服务,就通过http发送一条短信到手机上,内容类似:【通知】${START_DATE}_hive服务检测异常${DB_ID},实现的ktr如下:2016/09/08 15:43:05 - Spoon - 转换已经打开.2016/09/08 15:43:05 - Spoon - 正在打开转换 [dxl_t]...2016/09/08 15:43:05原创 2016-09-08 15:57:33 · 15680 阅读 · 1 评论