
hive
文章平均质量分 71
qq_26091271
这个作者很懒,什么都没留下…
展开
-
Hive Sql 语法
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的利用SQ转载 2015-12-28 18:52:44 · 363 阅读 · 0 评论 -
hive 数据倾斜
1.数据倾斜原因a.大表(2.8G)与小表关联(580K)b.大表(2.8G)与大表(3.0G)关联首先谈论大表与小表的关联导致数据倾斜问题 实例如下:大表数据格式:小表数据格式:关联语句hive>select * from report_tour_spot_detail s join repo转载 2017-03-09 10:25:45 · 364 阅读 · 0 评论 -
hive HQL
Hive提供了很多的函数,可以在命令行下show functions罗列所有的函数,你会发现这些函数名与mysql的很相近,绝大多数相同的,可通过describe function functionName 查看函数使用方法。hive支持的数据类型很简单就INT(4 byte integer),BIGINT(8 byte integer),FLOAT(single precision)转载 2016-10-06 11:48:07 · 350 阅读 · 0 评论 -
Hive的那些事儿?
HIVE是什么 ?来自度娘百科的解释:hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 简单来说,就是用QL这种语言的方式来转载 2015-12-22 11:39:20 · 624 阅读 · 0 评论 -
Hive 体系架构
1、Hive架构与基本组成 下面是Hive的架构图。图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分: (1)用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hive副本。Client是Hive的客户端,用户连接至Hive Server。在启动 Client模式转载 2015-12-28 22:01:36 · 806 阅读 · 0 评论 -
Hive使用小建议;编写hive UDF方法小示例
在Hive中,某些小技巧可以让我们的Job执行得更快,有时一点小小的改动就可以让性能得到大幅提升,这一点其实跟SQL差不多。首先,Hive != SQL,虽然二者的语法很像,但是Hive最终会被转化成MapReduce的代码去执行,所以数据库的优化原则基本上都不适用于 Hive。也正因如此,Hive实际上是用来做计算的,而不像数据库是用作存储的,当然数据库也有很多计算功能,但一般并不建议在转载 2015-12-28 21:42:26 · 645 阅读 · 0 评论 -
hive原生和复合类型的数据加载和使用
原生类型原生类型包括TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY (Hive 0.8.0以上才可用),TIMESTAMP (Hive 0.8.0以上才可用),这些数据加载很容易,只要设置好列分隔符,按照列分隔符输出到文件就可以了。假设有这么一张用户登陆表CREATE TABLE login转载 2015-12-28 21:33:48 · 289 阅读 · 0 评论 -
hive udaf开发入门和运行过程详解
介绍hive的用户自定义聚合函数(UDAF)是一个很好的功能,集成了先进的数据处理。hive有两种UDAF:简单和通用。顾名思义,简单的UDAF,写的相当简单的,但因为使用Java反射导致性能损失,而且有些特性不能使用,如可变长度参数列表。通用UDAF可以使用所有功能,但是UDAF就写的比较复杂,不直观。本文只介绍通用UDAF。UDAF是需要在hive的sql语句和gr转载 2015-12-28 21:30:32 · 312 阅读 · 0 评论 -
Hive UDF 编程
HIVE允许用户使用UDF(user defined function)对数据进行处理。用户可以使用‘show functions’ 查看function list,可以使用'describe function function-name'查看函数说明。[plain] view plaincopyhive> show functions;转载 2015-12-28 21:27:27 · 317 阅读 · 0 评论 -
深入浅出Hive
2012-12-24 19:30:24Hive的原理—— 深入浅出学Hive 交流分类:Java 目录: 初始Hive Hive安装与配置 Hive 内建操作符与函数开发 Hive JDBC hive参数 Hive 高级编程 Hive QL Hive Shell 基本操作 hive 优化 Hive体系结构 Hive的原理 配套视频课程 第一部分:Hive原理 为什么转载 2015-12-28 21:25:45 · 1093 阅读 · 0 评论 -
hive中UDF和UDAF使用说明
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:a)文件格式:Text File,Sequence Fileb)内存中的数据格式: Java Integer/St转载 2015-12-28 21:23:38 · 331 阅读 · 0 评论 -
Hadoop Hive sql语法详解--DQL 操作:数据查询SQL(4)
1.基本的Select 操作如何实现?2.基于Partition的查询如何实现?3.如何实现join,是否支持左连接,右连接?4.hive数据如何去重?5.ORDER BY 是否全局排序,只有一个Reduce任务?6.SORT BY 是否全局排序?7.hive是否支持exists?8.Hive不支持所有非等值的连接,为什么?1 基本的Select 操作转载 2015-12-28 21:18:21 · 325 阅读 · 0 评论 -
Hadoop Hive sql语法详解3--DML 操作:元数据存储(3)
hive增删改查与传统数据的区别是什么?hive不支持用insert语句一条一条的进行插入操作,也不支持update操作。数据是以load的方式加载到建立好的表中。数据一旦导入就不可以修改。DML包括:INSERT插入、UPDATE更新、DELETE删除•向数据表内加载文件•将查询结果插入到Hive表中•0.8新特性 insert into向数据表内加载转载 2015-12-28 21:16:38 · 284 阅读 · 0 评论 -
Hadoop Hive sql语法详解-修改表结构(2)
hive同样也面对传统数据库的一些操作,那么hive1.如何增加分区、删除分区?2.如何重命名表?3.如何修改列的名字、类型、位置、注释?4.如何增加/更新列?5.如何增加表的元数据信息?表添加一列 :hive> ALTER TABLE pokes ADD COLUMNS (new_col INT);复制代码添加一列并增加列字转载 2015-12-28 21:15:27 · 592 阅读 · 0 评论 -
Hadoop Hive sql语法详解1-认识hive及DDL操作(1)
hive或许我们有一个整体的认识,可以转换为mapreduce,那么具体是如何做的那?1.编写的mapreduce能否成为hive插件那?2.hive如何创建?3.hive是如何查询数据的?1.认识hive: Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据转载 2015-12-28 21:14:03 · 345 阅读 · 0 评论 -
Hive Sql 常用语句
Hive提供了很多的函数,可以在命令行下show functions罗列所有的函数,你会发现这些函数名与mysql的很相近,绝大多数相同的,可通过describe function functionName 查看函数使用方法。hive支持的数据类型很简单就INT(4 byte integer),BIGINT(8 byte integer),FLOAT(single precision)转载 2015-12-28 21:10:37 · 567 阅读 · 0 评论 -
hive数据倾斜(2)
map/reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完,此称之为数据倾斜。1.万能膏药:hive.groupby.skewindata=tru转载 2017-03-09 10:29:28 · 307 阅读 · 0 评论