
Hive
在屋顶听歌
Stay Focused And Work Hard !!!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive数据导出三种方式(四)
注:原文出自 这里写链接内容 今天我们再谈谈Hive中的三种不同的数据导出方式。 根据导出的地方不一样,将这些方式分为三种: (1)、导出到本地文件系统; (2)、导出到HDFS中; (3)、导出到Hive的另一个表中。 为了避免单纯的文字,我将一步一步地用命令进行说明。一、导出到本地文件系统 hive> insert overwrite local directory '/hom转载 2017-03-22 21:38:41 · 887 阅读 · 0 评论 -
hive中解决中文乱码
注:转自 hive中解决中文乱码一.个人初始开发环境的基本情况以及Hive元数据库说明①hive的元数据库改成了mysql(安装完mysql之后也没有进行其它别的设置)②hive-site.xml中设置元数据库对应的配置为 jdbc:mysql://crxy99:3306/hive_cz3q?createDatabaseIfNotExist=true③普通情况下咱转载 2017-12-15 14:35:45 · 9829 阅读 · 1 评论 -
测试Hbase 表映射成 Hive表查询效率
准备工作: 1、编写程序将1000万条数据写到Hbase表中; 2、将对应的Hbase表映射成Hive表。在Hive 的shell中执行类似如下的命令 hive> CREATE EXTERNAL TABLE IF NOT EXISTS t_hbase_person_his10(id string, NAME String, salary string,START_DATE string,END原创 2017-11-07 21:07:37 · 4223 阅读 · 0 评论 -
Hive 实现脱敏以及ETL 过程(开启kerberos)
业务场景及实现原理:通过采集工具将用户数据采集到 Hive 库;如果将数据采集到Hbase表,再通过Hive创建对应的外部表关联Hbase表,这个场景同样适用,只不过脱敏后的数据将存在Hive中而不是Hbase中。将 采集到的Hive 数据进过一定的脱敏算法将数据共享出去;为了防止请求被非法模仿,因而编写了一个访问Ip 鉴权类,也就是设置了访问ip白名单,只有在白名单上的ip才可以访问接...原创 2017-08-18 00:01:12 · 13605 阅读 · 0 评论 -
Hive 整合Hbase(hbase.TableNotFoundException)
由于数据需要经常改动,所以将数据存储在Hbase中,通过Hive关联Hbase表的方式来对Hbase进行查询操作。 原先我是在本地通过虚拟机搭建的伪分布式,因此做Hive关联Hbase操作时需要做不少的操作,比如将Hbase相关的jar添加到Hive,将Hbase配置文件添加到hadoop/conf目录下等。具体操作可见如下文章: http://blog.youkuaiyun.com/u013850277/原创 2017-08-23 22:46:00 · 6341 阅读 · 1 评论 -
Hive之Bucket 桶表(六)
Bucket 桶表的基本相关概念 对于每一个表(table)或者分区, Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。基本可以这么说分区表是粗粒度的划分,桶在细粒度的划分。当数据量比较大,我们需要更快的完成任务,多个map和reduce进程是唯一的选择。原创 2017-03-25 15:36:08 · 3852 阅读 · 0 评论 -
Java 调用Hive 自定义UDF
注: 转自 http://blog.youkuaiyun.com/allen_oscar/article/details/45146913Hive 具有一个可选的组件叫做HiveServer,它允许通过在一定的端口访问hive. 将自定义的UDF的jar拷贝到安装的hive服务器中(如 /home/Hadoop下) 具体的不啰嗦了,看代码吧!package com.hive.client; impor转载 2017-08-18 00:12:05 · 790 阅读 · 0 评论 -
Hive 与 Hbase的整合(四)
Hive与Hbase的整合功能的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠hive_hbase-handler.jar工具类一、将hbase 下相关的jar包拷贝到/home/centosm/hive/lib文件夹下面,如果已存在不同版本的则删除hive中的再复制上去。 具体操作步骤如下:1、备份hive下的lib包: zip -r lib.zip lib2、将hbase原创 2017-06-20 23:59:42 · 1644 阅读 · 0 评论 -
Hive的基本语法(二)
直接先操作再解说:1、通过 hive 命令进入hive shell hive> show databases; 2、show databases;3、show tables;4、create table ...eg:hive> create table test(year string,month int,num int)ROW FORMAT...原创 2017-03-22 21:33:03 · 447 阅读 · 0 评论 -
Hive 之Table、External Table、Partition(五)
一、 有关Hive的一些小结:Hive 是一个建立在hadoop文件系统上的数据仓库架构,可以用其对hdfs上数据进行分析与管理。实际上是将hdfs上的文件映射成table(按文件格式创建table,然后hive的数据仓库会生成对应的目录,默认的仓库路径:user/hive/warehouse/tablename,目录名与这个表名相同,这时只要将符合table定义的文件加载到该目录便可通过...原创 2017-03-25 01:49:27 · 11387 阅读 · 0 评论 -
Hive之Functions(七)
注:原文出自 Hive函数大全 一、关系运算:等值比较: = 语法:A=B 操作类型:所有基本类型 描述:如果表达式A与表达式B相等,则为TRUE;否则为FALSE 举例: Hive>select 1 from lxw_dual where 1=1; 1不等值比较: <> 语法: A <> B操作类型:所有基本类型描述:如果表达式A为NULL,或者表达式B为NULL,返回NULL;如果表达转载 2017-03-25 15:56:37 · 839 阅读 · 0 评论 -
Hadoop之Hive简介与安装、测试(一)
一、Hive是什么? Hive是一种建立在Hadoop文件系统上的数据仓库架构,并对存储在HDFS中的数据进行分析与管理。可以通俗的理解为: 对于存储在HDFS中的数据进行分析与管理时,我们不想使用手工,从而建立一个工具来进行相应的操作,这个工具就是hive。 数据仓库:数据仓库的本质就是收集尽可能多的信息,用作公司的决策支持。数据仓库一般是不可更新的,数据仓库主要是为决策分析提供数原创 2017-02-16 00:23:36 · 10644 阅读 · 0 评论 -
Hive四种数据导入方式 (三)
注:原文出自http://blog.youkuaiyun.com/lifuxiangcaohui/article/details/40588929Hive的几种常见的数据导入方式这里介绍四种:(1)、从本地文件系统中导入数据到Hive表;(2)、从HDFS上导入数据到Hive表;(3)、从别的表中查询出相应的数据并导入到Hive表中;(4)、在创建表的时候通过从别的表中查询转载 2017-03-22 21:36:02 · 468 阅读 · 0 评论 -
Hive查看是外部表还是内部表
注:转自https://blog.youkuaiyun.com/qq_31382921/article/details/53083201----------------------------------------我知道的有两个方法: 第一种方法是 进入hive,执行 describe extended tablename; 查看表的详细信息。 如果是外部表,在详细信息的最后一行,会输出 tableType...转载 2018-03-28 15:54:33 · 8848 阅读 · 2 评论