
Hive
文章平均质量分 88
guohecang
数据为王时代,让大数据释放大价值
展开
-
数据仓库中的SQL性能优化 - Hive篇
摘要:Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化,针对MR全局的优化以及针对整个查询的优化。一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,Reduce,Spill,转载 2016-05-10 16:59:03 · 1811 阅读 · 0 评论 -
深入浅出学Hive——Hive安装与配置
目录:初始HiveHive安装与配置Hive 内建操作符与函数开发Hive JDBChive参数Hive 高级编程Hive QLHive Shell 基本操作hive 优化Hive体系结构Hive的原理 配套视频课程 第一部分:软件准备与环境规划Hadoop环境介绍转载 2016-06-03 10:16:25 · 985 阅读 · 0 评论 -
深入浅出学Hive——初始Hive
目录:初始HiveHive安装与配置Hive 内建操作符与函数开发Hive JDBChive参数Hive 高级编程Hive QLHive Shell 基本操作hive 优化Hive体系结构Hive的原理 配套视频课程 第一部分:Hive简介什么是Hive•转载 2016-06-03 10:09:22 · 1216 阅读 · 0 评论 -
浅析Hadoop中的数据倾斜
最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间,硬件不同就不说了,应用的类型不同其中就比如page rank 或者data mining 里面一些计算,它的每条记录消转载 2016-06-02 16:38:32 · 2717 阅读 · 0 评论 -
达观数据分析平台架构和Hive实践
问题导读:1.Hive与一般SQL有什么区别?2.达观数据分析平台架构是怎么样的?3.达观怎么优化数据分析平台的?1 Hive原理Hadoop是一个流行的开源框架,用来存储和处理商用硬件上的大规模数据集。对于HDFS上的海量日志而言,编写Mapreduce程序代码对于类似数据仓库的需求来说总是显得相对于难以维护和重用,Hive作为一种基于Hadoop的数据仓库解决方案应运而生,转载 2016-06-03 11:56:24 · 1236 阅读 · 0 评论 -
深入浅出学Hive——Hive内建操作符与函数开发
目录:初始HiveHive安装与配置Hive 内建操作符与函数开发Hive JDBChive参数Hive 高级编程Hive QLHive Shell 基本操作hive 优化Hive体系结构Hive的原理 配套视频课程 第一部分:关系运算Hive支持的关系运算符转载 2016-06-03 10:20:57 · 1062 阅读 · 0 评论 -
Hive分析窗口函数系列文章
Hive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。今天先看几个基础的,SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。Hive版本为 apache-hive-0.13.1数据准备CREATE EXTERNAL TABLE lxw1234 (cookieid string,createtime strin转载 2016-06-03 22:52:01 · 7897 阅读 · 1 评论 -
Hive自定义UDF UDAF UDTF
Hive是一种构建在Hadoop上的数据仓库,Hive把SQL查询转换为一系列在Hadoop集群中运行的MapReduce作业,是MapReduce更高层次的抽象,不用编写具体的MapReduce方法。Hive将数据组织为表,这就使得HDFS上的数据有了结构,元数据即表的模式,都存储在名为metastore的数据库中。 可以在hive的外壳环境中直接使用dfs访问hadoop的文件转载 2016-06-10 17:58:26 · 712 阅读 · 0 评论 -
Hadoop Hive sql语法详解
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的利用SQ转载 2016-06-10 16:24:59 · 3342 阅读 · 0 评论 -
Hive 基础(2):库、表、字段、交互式查询的基本操作
1、命令行操作(1)打印查询头,需要显示设置:set hive.cli.print.header=true;(2)加"--",其后的都被认为是注释,但 CLI 不解析注释。带有注释的文件只能通过这种方式执行:hive -f script_name(3)-e后跟带引号的hive指令或者查询,-S去掉多余的输出:hive -S -e "select *转载 2016-06-10 15:18:23 · 950 阅读 · 0 评论 -
深入浅出学Hive——Hive高级编程
目录:初始HiveHive安装与配置Hive 内建操作符与函数开发Hive JDBChive参数Hive 高级编程Hive QLHive Shell 基本操作hive 优化Hive体系结构Hive的原理 配套视频课程 第一部分:产生背景产生背景•为了满足客户个转载 2016-06-03 10:27:17 · 1743 阅读 · 0 评论 -
深入浅出学Hive——Hive QL
目录:初始HiveHive安装与配置Hive 内建操作符与函数开发Hive JDBChive参数Hive 高级编程Hive QLHive Shell 基本操作hive 优化Hive体系结构Hive的原理 配套视频课程 第一部分:DDLDDL•建表•删除转载 2016-06-03 10:28:39 · 1229 阅读 · 0 评论 -
深入浅出学Hive——Hive Shell基本操作
目录:初始HiveHive安装与配置Hive 内建操作符与函数开发Hive JDBChive参数Hive 高级编程Hive QLHive Shell 基本操作hive 优化Hive体系结构Hive的原理 配套视频课程 第一部分:Hive bin下脚本介绍Hive bin下转载 2016-06-03 10:30:19 · 1329 阅读 · 0 评论 -
hive性能优化指南——初级篇
1.概述 这个标题也是用血的教训换来的,希望对刚进入hive圈的童鞋和正在hive圈爬坑的童鞋有所帮助。打算分以下几个部分去描述:Hive的结构Hive的基本操作Hive SelectHive JoinHive UDFHive的M/R使用Hive注意点优化及优化详情优化总结调优的经常手段解决Hive问题的途径 这篇文章只是起个头,为描述其他部分做下准备。下面我赘述下Hive的结转载 2016-06-01 15:57:45 · 1290 阅读 · 0 评论 -
hive性能优化指南——高级篇
1.概述 继续《hive性能优化指南--初级篇》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总转载 2016-06-01 21:35:24 · 1463 阅读 · 0 评论 -
Hive JOIN使用详解
Hive是基于Hadoop平台的,它提供了类似SQL一样的查询语言HQL。有了Hive,如果使用过SQL语言,并且不理解Hadoop MapReduce运行原理,也就无法通过编程来实现MR,但是你仍然可以很容易地编写出特定查询分析的HQL语句,通过使用类似SQL的语法,将HQL查询语句提交Hive系统执行查询分析,最终Hive会帮你转换成底层Hadoop能够理解的MR Job。对于最基本的HQ转载 2016-06-02 10:16:33 · 797 阅读 · 1 评论 -
hive大数据倾斜总结
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的转载 2016-06-02 15:18:35 · 8978 阅读 · 3 评论 -
深入浅出学Hive——Hive JDBC
目录:初始HiveHive安装与配置Hive 内建操作符与函数开发Hive JDBChive参数Hive 高级编程Hive QLHive Shell 基本操作hive 优化Hive体系结构Hive的原理 配套视频课程 第一部分:搭建Hive JDBC开发环境转载 2016-06-03 10:23:02 · 1118 阅读 · 0 评论 -
深入浅出学Hive——Hive参数
目录:初始HiveHive安装与配置Hive 内建操作符与函数开发Hive JDBChive参数Hive 高级编程Hive QLHive Shell 基本操作hive 优化Hive体系结构Hive的原理 配套视频课程 第一部分:Hive 参数hive.exec.max.c转载 2016-06-03 10:24:53 · 1077 阅读 · 0 评论 -
深入浅出学Hive——Hive原理
目录:初始HiveHive安装与配置Hive 内建操作符与函数开发Hive JDBChive参数Hive 高级编程Hive QLHive Shell 基本操作hive 优化Hive体系结构Hive的原理 配套视频课程 第一部分:Hive原理为什么要学习Hive的原理转载 2016-06-03 10:36:21 · 3957 阅读 · 0 评论 -
深入浅出学Hive——Hive体系结构
目录:初始HiveHive安装与配置Hive 内建操作符与函数开发Hive JDBChive参数Hive 高级编程Hive QLHive Shell 基本操作hive 优化Hive体系结构Hive的原理 配套视频课程 第一部分:概念 概念•用转载 2016-06-03 10:34:43 · 1315 阅读 · 0 评论 -
深入浅出学Hive——Hive优化
目录:初始HiveHive安装与配置Hive 内建操作符与函数开发Hive JDBChive参数Hive 高级编程Hive QLHive Shell 基本操作hive 优化Hive体系结构Hive的原理 配套视频课程 第一部分:Hadoop 计算框架的特性什么是数据倾斜转载 2016-06-03 10:33:30 · 1196 阅读 · 0 评论 -
Hive 基础(1):分区、桶、Sort Merge Bucket Join
Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个 Hadoop/Hive/DW RD 必须掌握的部分,之前也有几篇文章聊到过 MR/Hive 中的 join,其实转载 2016-06-10 14:56:57 · 835 阅读 · 0 评论