
Hive
是小白哇
因为无知、所以追逐
展开
-
初识Hive
什么是Hive?由FaceBook开源用于解决海量结构化日志的俄数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类sql查询功能。(1)使用HQL作为查询接口。(2)使用HDFS进行数据存储。(3)使用MapReduce计算本质是:将HQL转化成MapR额度测程序。Hive在Hadoop生态系统中所处的位置:Hive架构Client(用户接口)CLI原创 2017-11-19 19:49:46 · 231 阅读 · 0 评论 -
Hive安装及启动异常解决
前期准备1、关于Hive的安装包和文档可以从这里获取:Hive官方文档Hive下载地址Hive源码地址2、Hive依赖于Hadoop,关于Hadoop的安装可以查看这里:Hadoop安装——启动模式,基本配置,启动方式Hadoop集群搭建——环境配置3、安装mysql由于Hive需要在数据库中存储元数据信息,所以安装hive之前需要先安装mysql。hive有一个默认的存放在内存中的数据库,企业开发原创 2017-11-20 22:29:20 · 7397 阅读 · 2 评论 -
hive数据库与表的创建
数据库的创建与销毁//创建数据库并指定数据存储的位置,如果路径之前不存在,会在创建数据库的时候自动创建目录。//默认的位置在hive-site.xml中进行配置create database if not exists bhivelocation '/user/hive/warehouse/bhive.db';创建数据库的同时,对应到hdfs文件系统中,将会是在指定的的目录下创建一个和数据库名原创 2017-12-14 19:33:01 · 4628 阅读 · 0 评论 -
hive中的内部表、外部表、分区表
内部表和外部表hive的表分为内部表(管理表)和外部表(托管表),对于外部表,在创建的时候,需要加上EXTERNAL关键字,不使用EXTERNAL关键字创建的表为内部表:create EXTERNAL table IF NOT EXISTS bhive.people( id string COMMENT 'student id', //字段描述 name strin原创 2017-12-14 19:37:35 · 1405 阅读 · 0 评论 -
hive数据的加载与导出
数据加载(1)加载本地数据到hive表中load data local inpath '/path' overwrite into table table_name; (2)加载hdfs数据到hive表中load data inpath '/path' overwrite into table table_name; (3)创建表的时候加载数据create table IF NOT EXISTS b原创 2017-12-14 19:40:15 · 290 阅读 · 0 评论 -
hive中数据排序
(1)order by对全局数据的排序,只有一个reduceselect * from emp order by id desc;(2)sort by对每个reduce内部数据进行排序,对于全局数据结果来说不是排序的。//设置reduce的个数set mapreduce.job.reduces=3;select * from emp sort by id desc;(3)distribute b原创 2017-12-14 19:42:15 · 1876 阅读 · 0 评论 -
hive UDF编程
UDF编程(User Defined Function)(1)创建java项目,添加maven依赖 <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> <version>2.2.0</version></depe原创 2017-12-14 20:00:37 · 421 阅读 · 0 评论 -
Hive入门操作使用及常用配置
基本操作先创建测试文件(/home/bxp/Documents/doc/hivetest/hive.txt)数据,内容如下(每行的两个字段之间使用”\t”分隔):11 AA22 BB33 CC使用bin/hive 命令进入hive客户端shell。hive连接成功后和mysql数据库的操作基本相同。他具有一个默认的数据库default,通过show databases 命原创 2017-11-22 11:15:04 · 327 阅读 · 0 评论