
hive
hellozhxy
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive数据类型
1. Hive数据类型Hive支持原始数据类型和复杂类型,原始类型包括数值型,Boolean,字符串,时间戳。复杂类型包括数组,map,struct。下面是Hive数据类型的一个总结:分类 类型 描述 字面量示例 原始类型 BOOLEAN true/false TRUE TINYINT 1字节的有符号整数 -128~127 ...转载 2018-08-21 13:19:10 · 18615 阅读 · 0 评论 -
Hive 基础(2):库、表、字段、交互式查询的基本操作
1、命令行操作(1)打印查询头,需要显示设置:set hive.cli.print.header=true;(2)加"--",其后的都被认为是注释,但 CLI 不解析注释。带有注释的文件只能通过这种方式执行:hive -f script_name(3)-e后跟带引号的hive指令或者查询,-S去掉多余的输出:hive -S -e "select * FROM mytable LIM...转载 2018-09-19 10:58:02 · 786 阅读 · 0 评论 -
Hive 基础(1):分区、桶、Sort Merge Bucket Join
Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个 Hadoop/Hive/DW RD 必须掌握的部分,之前也有几篇文章聊到过 MR/Hive 中的 join,其实底层...转载 2018-09-19 10:57:50 · 334 阅读 · 0 评论 -
数据仓库中的SQL性能优化 - Hive篇
一个Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化(其中又会有细分),针对MR全局的优化,和针对整个查询(多MR job)的优化,下文会分别阐述。在开始之前,先把MR的流程图帖出来(摘自Hadoop权威指南),方便后面对...转载 2018-09-19 10:57:45 · 226 阅读 · 0 评论 -
Hive JOIN使用详解
Hive是基于Hadoop平台的,它提供了类似SQL一样的查询语言HQL。有了Hive,如果使用过SQL语言,并且不理解Hadoop MapReduce运行原理,也就无法通过编程来实现MR,但是你仍然可以很容易地编写出特定查询分析的HQL语句,通过使用类似SQL的语法,将HQL查询语句提交Hive系统执行查询分析,最终Hive会帮你转换成底层Hadoop能够理解的MR Job。对于最基本的HQL...转载 2018-09-19 10:57:38 · 491 阅读 · 0 评论 -
深入浅出学Hive:Hive高级编程
目录:初始HiveHive安装与配置Hive内建操作符与函数开发Hive JDBCHive参数Hive高级编程Hive QLHive Shell基本操作Hive优化Hive体系结构Hive原理 第一部分:产生背景产生背景•为了满足客户个性化的需求,Hive被设计成一个很开放的系统,很多内容都支持用户定制,包括:•文件格式:...转载 2018-09-18 10:10:35 · 535 阅读 · 0 评论 -
深入浅出学Hive:Hive优化
目录:初始HiveHive安装与配置Hive内建操作符与函数开发Hive JDBCHive参数Hive高级编程Hive QLHive Shell基本操作Hive优化Hive体系结构Hive原理 第一部分:Hadoop 计算框架的特性什么是数据倾斜•由于数据的不均衡原因,导致数据分布不均匀,造成数据大量的集中到一点,造成数据热点...转载 2018-09-18 10:10:30 · 478 阅读 · 0 评论 -
深入浅出学Hive:Hive内建操作符与函数开发
目录:初始HiveHive安装与配置Hive内建操作符与函数开发Hive JDBCHive参数Hive高级编程Hive QLHive Shell基本操作Hive优化Hive体系结构Hive原理 第一部分:关系运算Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: <>•小于比较: ...转载 2018-09-18 10:10:23 · 481 阅读 · 0 评论 -
Hive分析窗口函数系列文章
分析窗口函数应用场景:(1)用于分区排序(2)动态Group By(3)Top N(4)累计计算(5)层次查询 Hive分析窗口函数(一) SUM,AVG,MIN,MAXHive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。今天先看几个基础的,SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统...转载 2018-09-18 10:10:07 · 137 阅读 · 0 评论 -
hive大数据倾斜总结
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的...转载 2018-09-18 10:09:59 · 191 阅读 · 0 评论 -
Hive自定义UDF UDAF UDTF
Hive是一种构建在Hadoop上的数据仓库,Hive把SQL查询转换为一系列在Hadoop集群中运行的MapReduce作业,是MapReduce更高层次的抽象,不用编写具体的MapReduce方法。Hive将数据组织为表,这就使得HDFS上的数据有了结构,元数据即表的模式,都存储在名为metastore的数据库中。 可以在hive的外壳环境中直接使用dfs访问hadoop的文件系...转载 2018-09-18 10:09:50 · 310 阅读 · 0 评论 -
达观数据分析平台架构和Hive实践
问题导读:1.Hive与一般SQL有什么区别?2.达观数据分析平台架构是怎么样的?3.达观怎么优化数据分析平台的?1 Hive原理Hadoop是一个流行的开源框架,用来存储和处理商用硬件上的大规模数据集。对于HDFS上的海量日志而言,编写Mapreduce程序代码对于类似数据仓库的需求来说总是显得相对于难以维护和重用,Hive作为一种基于Hadoop的数据仓库解决方案应运而生,并得到...转载 2018-09-17 13:29:10 · 337 阅读 · 0 评论 -
深入浅出学Hive:Hive体系结构
第一部分:概念 概念•用户接口:用户访问Hive的入口•元数据:Hive的用户信息与表的MetaData•解释器:分析翻译HQL的组件•编译器:编译HQL的组件•优化器:优化HQL的组件第二部分:Hive架构与基本组成架构图基本组成•用户接口,包括 CLI,JDBC/ODBC,WebUI•元数据存储,通常是存储在关系数据库如 mysql, derby...转载 2018-09-17 13:29:01 · 207 阅读 · 0 评论 -
深入浅出学Hive:Hive参数
第一部分:Hive 参数hive.exec.max.created.files•说明:所有hive运行的map与reduce任务可以产生的文件的和•默认值:100000 hive.exec.dynamic.partition•说明:是否为自动分区•默认值:falsehive.mapred.reduce.tasks.speculative.execution•说明:是...转载 2018-09-17 13:28:50 · 324 阅读 · 0 评论 -
深入浅出学Hive:Hive QL
第一部分:DDLDDL•建表•删除表•修改表结构•创建/删除视图•创建数据库•显示命令建表CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PA...转载 2018-09-17 13:28:45 · 275 阅读 · 0 评论 -
Hadoop Hive sql语法详解
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的利用SQL 语言查询,汇...转载 2018-09-17 13:28:39 · 1263 阅读 · 0 评论 -
hive性能优化指南
1.概述 继续《hive性能优化指南--初级篇》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总...转载 2018-09-17 13:28:33 · 210 阅读 · 0 评论 -
spark和HSQL的连接join方式
本文主要介绍spark join相关操作。讲述spark连接相关的三个方法join,left-outer-join,right-outer-join,在这之前,我们用hiveSQL先跑出了结果以方便进行对比。我们以实例来进行说明。我的实现步骤记录如下。 1、数据准备2、HSQL描述3、Spark描述 1、数据准备我们准备两张Hive表,分别是orders(订单表...转载 2018-09-03 09:57:14 · 1243 阅读 · 0 评论 -
Hive中JOIN的使用入门
Hive中join的用法Hive中Join的通常使用有以下几种:inner join 等值连接 left join right join full join left semi join cross join(笛卡尔积) mulitiple(一般来说是多个表进行join)数据准备:join_a.txt: 1 zhangsan 2 lisi...转载 2018-09-07 14:59:30 · 572 阅读 · 0 评论