
Hive
文章平均质量分 94
XiaoGuang-Xu
主要从事Hadoop Spark Flink,兴趣爱好:数据挖掘和机器学方向
展开
-
[一起学Hive]之十-Hive中Join的原理和机制
[一起学Hive]之十-Hive中Join的原理和机制转载: http://lxw1234.com/archives/2015/06/313.htm九、Hive中Join的原理和机制笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。本文简单介绍一下两种join的原理和机制。转载 2017-06-29 10:35:27 · 354 阅读 · 0 评论 -
Hive 在多维统计分析中的应用 & 技巧总结
Hive 在多维统计分析中的应用 & 技巧总结多维统计一般分两种,我们看看 Hive 中如何解决:1、同属性的多维组合统计(1)问题:有如下数据,字段内容分别为:url, catePath0, catePath1, catePath2, unitparamshttps://cwiki.apache.org/confluence 0 1 8 {转载 2015-05-14 17:13:18 · 854 阅读 · 0 评论 -
hive与hbase集成
hive与hbase集成这篇文章最初是基于介绍HIVE-705。这个功能允许Hive QL命令访问HBase表,进行读(select)、写(insert)操作。它甚至可以基于join、union操作对hbase表和hive原生的表进行混合访问。这个功能还在不断的完善中,欢迎提出建议。存储handler在开始介绍之前,首先请阅读StorageHandlers,对存转载 2015-04-11 14:39:07 · 473 阅读 · 0 评论 -
Overwrite在hive内部表及外部表特性
overwrite在hive内部表及外部表特性。overwrite即为重写的意思, 指定了OVERWRITE,会有以下效果:•目标表(或者分区)中的内容(如果有)会被删除,然后再将 filepath 指向的文件/目录中的内容添加到表/分区中。•如果目标表(分区)已经有一个文件,并且文件名和 filepath 中的文件名冲突,那么现有的文件会被新文件所替代。一、内部表测试转载 2015-04-01 17:15:42 · 1091 阅读 · 0 评论 -
Hive的left join、left outer join和left semi join三者的区别
Hive的left join、left outer join和left semi join三者的区别Hive的Join的文档说明地址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual%2BJoins以下为两个测试数据表建表语句:use test;DROP TABLE IF EX转载 2015-04-01 18:21:48 · 4626 阅读 · 0 评论 -
Hive 子查询特别分析
Hive只支持在FROM子句中使用子查询,子查询必须有名字,并且列必须唯一:SELECT ... FROM(subquery) name ...确认下是否一定要求列必须唯一? 建表语句:create table tb_in_base( id bigint, devid bigint, devname string) partitio转载 2015-04-01 16:59:44 · 640 阅读 · 0 评论 -
hive 桶相关特性分析
1. hive 桶相关概念 桶(bucket)是指将表或分区中指定列的值为key进行hash,hash到指定的桶中,这样可以支持高效采样工作。 抽样(sampling)可以在全体数据上进行采样,这样效率自然就低,它还是要去访问所有数据。而如果一个表已经对某一列制作了bucket,就可以采样所有桶中指定序号的某个桶,这就减少了访问量。2. 桶作用1)数据抽样2)提升某些转载 2015-04-01 16:43:20 · 544 阅读 · 0 评论 -
Hive编程指南_学习笔记01
第四章: HQl的数据定义1:创建数据库 create database financials; create database if not exists financials;2: 查看数据库 show databases; 模糊查询数据库 show databases like 'h.*' ;3:创建数据库修改数据库的默认位置原创 2015-04-01 16:23:05 · 734 阅读 · 0 评论 -
hive 排序特性研究
1. 排序定义:所谓排序就是使一串记录,按照其中的某个或某些关键字,递增或是递减的排列。2. hive 中排序相关内容 2.1 order by order by 会对输入做全局排序,故只有一个reducer,若数据的规模比较大时,需要较长的计算时间。hive中order by 也是对一个结果集进行排序,不同于关系型数据库是底层架构。hive的hive-site.xml配置文件中的参转载 2015-04-01 16:09:14 · 548 阅读 · 0 评论 -
hive 整合 hbase
hive 整合 hbasehttp://blog.youkuaiyun.com/kky2010_110/article/details/8332320转载 2014-06-06 18:57:08 · 573 阅读 · 0 评论 -
Hive学习笔记02.txt
1:表的重命名alter table log_message rename to logmsgs;2:新增加表分区alter table log_message add if not existsPARTITION (year='2013',month='10',day='11') LOCATION '/user/hadoop/warehouse/table_name';原创 2015-06-09 12:11:48 · 507 阅读 · 0 评论 -
Hive—Hbase—Sqoop—Mysql
1:创建Hive 和hBase 关系表use order; CREATE TABLE tmp_member_info_new_mysql(memberkey string, memberid string,uid string,email string, fullname string,sex string, birthday string,pr原创 2015-06-09 12:11:58 · 576 阅读 · 0 评论 -
HIVE MapJoin异常问题处理总结
HIVE MapJoin异常问题处理总结转转: https://yq.aliyun.com/articles/64306问题描述在跑hive作业的时候,偶尔会遇到下面的异常 FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask 。转载 2017-06-29 10:31:03 · 3860 阅读 · 1 评论 -
Hive权限介绍
转载URL: http://www.cnblogs.com/zfyouxi/p/5341387.html一、开启权限 眼下hive支持简单的权限管理,默认情况下是不开启。这样全部的用户都具有同样的权限。同一时候也是超级管理员。也就对hive中的全部表都有查看和修改的权利,这样是不符合一般数据仓库的安全原则的。Hive能够是基于元数据的权限管理。也能够基于文件存储级别的权限管转载 2017-02-07 13:36:41 · 330 阅读 · 0 评论 -
Hive SQL 和 MR 异常之 reduce拉取数据失败
主要错误:2016-12-23 09:43:10,656 INFO [fetcher#6] org.apache.hadoop.mapreduce.task.reduce.ShuffleSchedulerImpl: assigned 7 of 7 to hadoopserver04:13562 to fetcher#62016-12-23 09:43:10,656 INFO [fetcher转载 2016-12-23 10:17:03 · 1354 阅读 · 0 评论 -
Java写本地ORC文件(Hive2 API)
Java写本地ORC文件(Hive2 API)Hive2.0以后,使用了新的API来读写ORC文件(https://orc.apache.org)。本文中的代码,在本地使用Java程序生成ORC文件,然后加载到Hive表。代码如下:package com.lxw1234.hive.orc; import org.apache.hadoop.conf.Configurat转载 2016-08-18 16:01:41 · 8010 阅读 · 0 评论 -
HIve的JavaAPI操作
基于hadoop的Hive数据仓库JavaAPI简单调用的实例,关于Hive的简介在此不赘述。hive提供了三种用户接口:CLI,JDBC/ODBC和 WebUICLI,即Shell命令行JDBC/ODBC 是 Hive 的Java,与使用传统数据库JDBC的方式类似WebGUI是通过浏览器访问 Hive本文主要介绍的就是第二种用户接口,直接进入正题。 1、Hi转载 2016-06-24 23:05:52 · 722 阅读 · 0 评论 -
hive导入数据到hbase 遇到的问题
原文地址:http://blog.youkuaiyun.com/manburen01/article/details/39477733?utm_source=tuicool&utm_medium=referral 版本说明:hive-0.13.1 hbase-0.96.0/hbase-0.98.2 第一步:在hive客户端执行hive关联hbase建表语句 hive中对应转载 2016-04-01 14:53:04 · 1477 阅读 · 0 评论 -
Hive内置函数的应用案例
1:计算两个时间相差多少天:hive内置函数datediff 例子Demo:datediff('2009-07-28','2009-07-30')=22:也可以写自定义函数package cdel.edu.hive.udf.demo04;import java.text.ParseException;import java.text.SimpleDateFormat;原创 2015-06-11 11:44:47 · 662 阅读 · 0 评论 -
Hive lateral view语句(翻译自Hive wiki)
hive lateral view语句(翻译自Hive wiki)http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842938.htmlLateral View语法lateralView: LATERAL VIEW udtf(expression) tableAlias AS columnAlias (','转载 2015-06-09 14:47:02 · 498 阅读 · 0 评论 -
Hive学习路线图
http://blog.fens.me/hadoop-hive-roadmap/转载 2014-06-17 18:47:13 · 567 阅读 · 0 评论 -
Hive数据倾斜问题
Skew Join与Left Semi Join相关 Skew Join真实数据中数据倾斜是一定的, hadoop 中默认是使用hive.exec.reducers.bytes.per.reducer = 1000000000也就是每个节点的reduce 默认是处理1G大小的数据,如果你的join 操作也产生了数据倾斜,那么你可以在hive 中设定set hiv转载 2015-04-01 16:30:33 · 653 阅读 · 0 评论 -
Hive优化
Hive优化hive.optimize.cp=true:列裁剪hive.optimize.prunner:分区裁剪hive.limit.optimize.enable=true:优化LIMIT n语句hive.limit.row.max.size=1000000:hive.limit.optimize.limit.file=10:最大文件数1. 本地模式(小任务转载 2014-12-14 16:20:12 · 489 阅读 · 0 评论 -
Hive中partition如何使用
网上有篇关于hive的partition的使用讲解的比较好,转载了:一、背景1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表,需要在create表的时候调用可选参数partitio转载 2015-02-05 11:57:42 · 687 阅读 · 0 评论 -
Hive几种数据导入方式
好久没写Hive的那些事了,今天开始写点吧。今天的话题是总结Hive的几种常见的数据导入方式,我总结为四种:(1)、从本地文件系统中导入数据到Hive表;(2)、从HDFS上导入数据到Hive表;(3)、从别的表中查询出相应的数据并导入到Hive表中;(4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。我会对每一种数据的导入进行实际的操作,因为纯粹的文字让转载 2015-02-05 13:49:11 · 616 阅读 · 0 评论 -
hive的内部表与外部表创建
http://blog.youkuaiyun.com/fp196391196391/article/details/8479772最近才接触Hive。学到了一些东西,就先记下来,免得以后忘了。1.创建表的语句:Create [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_co转载 2015-02-05 13:57:45 · 679 阅读 · 0 评论 -
Hive远程模式
Hive远程模式1下载并安装MySQL并启动服务(我的MySQL安装在宿主机Windows下)2在MySQL中建立数据库用于存放Hive元数据,并为为数据库建立账号,并赋予需要的权限3下载并解压Hive4为Hive配置环境变量5配置hive-config.sh文件6配置hive-site.xml文件,并配置MySQL连接信息7把mysql转载 2014-06-08 10:02:57 · 954 阅读 · 0 评论 -
Hive查询
Hive查询 URL:http://blog.youkuaiyun.com/zythy/article/details/18814781排序和聚集通过Hive提供的order by子句可以让最终的输出结果整体有序。但是因为Hive是基于Hadoop之上的,要生成这种整体有序的结果,就必须强迫Hadoop只利用一个Reduce来完成处理。这种方式的副作用就是回降低效率。如果你不需要最转载 2014-12-01 13:22:46 · 463 阅读 · 0 评论 -
Hive学习
实战1——Hive与JDBC示例原创 2014-06-08 00:37:35 · 523 阅读 · 0 评论 -
Hive metastore三种配置方式
Hive metastore三种配置方式转载 2014-06-08 12:08:06 · 936 阅读 · 0 评论 -
Hive调优实战
Hive优化总结优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,转载 2015-02-08 10:47:19 · 593 阅读 · 0 评论 -
基于 hive 的日志数据统计实战
基于 hive 的日志数据统计实战http://blog.youkuaiyun.com/sutine/article/details/5653137转载 2015-02-26 12:54:17 · 771 阅读 · 0 评论 -
Hive Udf 与Udaf
Hive Udf 与UdafHive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:a)文件格式:Text File,Sequence Fileb转载 2015-03-29 15:09:34 · 576 阅读 · 0 评论 -
Hive总结(十)Hive 输入输出适配类(输出CSV,XML)
在最初使用 hive ,应该说上手还是挺快的。 Hive 提供的类 SQL 语句与 mysql 语句极为相似,语法上有大量相同的地方,这给我们上手带来了很大的方便,但是要得心应手地写好这些语句,还需要对 hive 有较好的了解,才能结合 hive 特色写出精妙的语句。关于 hive 语言的详细语法可参考官方 wiki 的语言手册:http://wiki.apache.org/hadoop/转载 2015-04-02 16:06:08 · 542 阅读 · 0 评论 -
Hive自定义UDAF详解
遇到一个Hive需求:有A、B、C三列,按A列进行聚合,求出C列聚合后的最小值和最大值各自对应的B列值。这个需求用hql和内建函数也可完成,但是比较繁琐,会解析成几个MR进行执行,如果自定义UDAF便可只利用一个MR完成任务。 所用Hive为0.13.1版本。UDAF有两种,第一种是比较简单的形式,利用抽象类UDAF和UDAFEvaluator,暂不做讨论。转载 2015-04-02 14:28:58 · 1072 阅读 · 0 评论 -
Hive总结(十二)Hive查询进阶--以及调用外部脚本
通过Hive提供的order by子句可以让最终的输出结果整体有序。但是因为Hive是基于Hadoop之上的,要生成这种整体有序的结果,就必须强迫Hadoop只利用一个Reduce来完成处理。这种方式的副作用就是回降低效率。如果你不需要最终结果整体有序,你就可以使用sort by子句来进行排序。这种排序操作只保证每个Reduce的输出是有序的。如果你希望某些特定行被同一个Reduce处理,转载 2015-04-02 11:02:10 · 721 阅读 · 0 评论 -
Hive 数据倾斜总结
转载:http://www.tbdata.org/archives/2109几个比较特殊的点都提到了,大家可以作为参考。在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的转载 2015-04-02 17:32:52 · 440 阅读 · 0 评论 -
Hive中分组取前N个值
背景假设有一个学生各门课的成绩的表单,应用hive取出每科成绩前100名的学生成绩。这个就是典型在分组取Top N的需求。 解决思路对于取出每科成绩前100名的学生成绩,针对学生成绩表,根据学科,成绩做order by排序,然后对排序后的成绩,执行自定义函数row_number(),必须带一个或者多个列参数,如ROW_NUMBER(col1, ....),它转载 2015-04-02 09:42:27 · 549 阅读 · 0 评论 -
Hive 学习资料
Hive 学习资料原文:http://www.cnblogs.com/linjiqin/category/455963.html转载 2014-05-28 13:03:49 · 631 阅读 · 0 评论 -
hive udaf开发入门和运行过程详解
hive udaf开发入门和运行过程详解介绍hive的用户自定义聚合函数(UDAF)是一个很好的功能,集成了先进的数据处理。hive有两种UDAF:简单和通用。顾名思义,简单的UDAF,写的相当简单的,但因为使用Java反射导致性能损失,而且有些特性不能使用,如可变长度参数列表。通用UDAF可以使用所有功能,但是UDAF就写的比较复杂,不直观。本文只介绍通用UDAF。U转载 2015-04-02 14:40:44 · 678 阅读 · 1 评论