
Hbase-Hive-pig
文章平均质量分 59
caiandyong
浮躁的心不会积淀出成功的土壤,清幽的路上风景更美好!
展开
-
Hive的数据存储模型
Hive的存储是建立在Hadoop文件系统之上的,Hive本身没有专门的数据存储格式,也不能为数据建立索引,因此可以自由的组织Hive中的表。在创建表的时候只需要告诉Hive数据中的列分隔符和行分隔符就可以解析数据。原创 2015-03-11 14:04:57 · 2903 阅读 · 0 评论 -
Pig Latin示例
1.创建并上传数据到HDFS2.加载grunt> records = LOAD 'hdfs://127.0.0.1:8020/pig/pigtestdata' AS (year:chararray,temperature:int,quality:int);grunt> DUMP records;grunt> DESCRIBE records原创 2015-03-07 18:25:28 · 888 阅读 · 0 评论 -
Pig Latin关系操作
类型操作 描述加载与存储LOAD 将数据从文件系统加载,存入关系 STORE将一个关系存放到文件系统 DUMP 将关系打印到控制台过滤 FILTER 从关系中过滤掉不需要的行 DISTINCT从关系中删除重复的行 FOREACH...GENERATE在关系中原创 2015-03-07 19:02:40 · 973 阅读 · 0 评论 -
Pig内置函数
类别 函数名称描述计算 AVG 计算包中项的平均值CONCAT把两个字节数组或者字符数组连接成一个COUNT 计算包中非空值的个数COUNTSTAR计算包中项的个数,包括空值 DIFF原创 2015-03-09 19:02:24 · 899 阅读 · 0 评论 -
HBase单机版安装与测试
系统:ubuntu 14.10 32位HBase安装包:hbase-0.94.26.tar.gzStep1:将HBase安装包解压到合适的位置,这里我把HBase安装包解压到/opt下面,命令如下:sudo tar -zxvf hbase-0.94.26.tar.gz -C /opt/Step2:将解压缩后的文件移动到当前目录下的hbase文件夹下,命原创 2015-02-28 17:35:47 · 923 阅读 · 0 评论 -
Pig 0.14.0安装
Pig是作为一个客户端应用程序运行的,即使运行在Hadoop集群上也不需要额外安装什么东西:Pig从工作站上发出作业,并和HDFS(或者其他Hadoop文件系统)进行交互。前提:系统已经安装了JDK6及以上版本。安装步骤:Step1.解压缩安装包sudo tar -zxvf pig-0.14.0.tar.gz -C /opt/Step2.移动解压原创 2015-03-07 18:04:07 · 463 阅读 · 0 评论 -
Pig执行模式
Pig有两种执行模式:local mode 和 MR mode Pig的物理计划是一系列的MR作业,在local mode,作业在本地JVM中运行,在MR mode,作业在Hadoop集群上运行。local mode: 在local mode ,Pig运行在单个JVM中,访问本地文件系统。本模式只适合用于试用Pig或处理小规模数据集。执行模式原创 2015-03-07 18:13:52 · 1156 阅读 · 0 评论 -
Pig Latin数据类型
类别 数据类型 描述 文字示例数值int32位有符号整数1long 64位有符号整数1Lfloat 32位浮点数1.0Fdouble64位浮点数1.0文本原创 2015-03-09 19:21:16 · 1221 阅读 · 0 评论 -
Pig简介
Pig为大型数据集的处理提供了更高层次的抽象。 Pig提供了丰富的数据结构,一般都是多值和嵌套的数据结构,pig还提供很强大的数据变换操作,包括在MR中被忽视的join操作。Pig包括两个部分:1.用于描述数据流的语言-Pig Latin;2.用于运行Pig Latin程序的执行环境,当前有两个环境:单JVM中的local执行环境和Hadoop集群上的原创 2015-03-07 17:58:36 · 1005 阅读 · 0 评论 -
Hive 1.0.0简介与安装
Hive简介Hive是由Facebook的数据组开发维护的,在Facebook内部使用之后,被移交给Apache基金会。Hive是建立在Hadoop之上的数据仓库,其使用MapReduce对存储于HDFS之上的数据进行分析。Hive可以缩短MapReduce的开发周期,它定义了一种类SQL的查询语言,称之为HiveQL.Hive使用HiveQL表述查询操作,并立即将其自动转化为一个原创 2015-03-10 23:21:42 · 2063 阅读 · 0 评论 -
Hive Web Interface(hwi)
构建hwi的war包Hive 1.0.0发行包里没有hwi的war包文件,这个问题在0.13和0.14上都存在,没有这个war包就不能启动hwi服务。目前的解决方法是从源码手动build出这个war包,具体做法是:(1)下载Hive 1.0.0的源码包(apache-hive-1.0.0-src.tar.gz)并解压,下载地址为http://mirrors.cnnic.cn/apach原创 2015-03-12 13:51:41 · 1419 阅读 · 0 评论 -
Hive数据操作
1.向数据表中加载文件当数据被加载到表时,不会对数据进行任何变换,LOAD操作只是将数据复制到Hive表对应的位置。代码:LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE table_name [PARTITION (partitioncol=val,...)]filepath可以是相对路径,绝对路径或完整的U原创 2015-03-11 22:12:44 · 802 阅读 · 0 评论 -
Hive表分区操作
Hive在对数据进行查询的时候一般会对整个表进行扫描,当表很大的时候会消耗很多时间,有时候只是需要对表中的一部分数据进行扫描,因此Hive引入分区。Hive分区不同于一般分布式系统下的范围分区,哈希分区,一致性分区等。Hive的分区是在Hive的表结构下面根据分区的字段设置将数据按照目录进行存放,相当于简单的索引功能。Hive表分区需要在创建表的时候指定模式(Hive创建表的时候指定模式的原创 2015-03-11 22:11:56 · 1320 阅读 · 0 评论 -
Hive视图
1.创建表视图CREATE VIEW [IF NOT EXISTS] view_name [(col_name [COMMENT col_comment],...)] [COMMENT view_comment] AS SELECT...在创建视图的同时确定了视图的架构,随后再改变基本表将不会在视图中体现出来,如果基本表被删除或者以不兼容的方式被修改,则该视图查询会失败。视图是只读的。原创 2015-03-11 22:11:35 · 800 阅读 · 0 评论 -
Hive修改表
ALTER TABLE语句用于改变一个已经存在的表的结构,如:增加列和分区,改变SerDe,添加表和SerDe的属性或成命名表。(1)重命名表ALTER TABLE table_name RENAME TO new_table_name该命令只是更改了表名字,数据所在的分区和位置并不会改变。表的旧名字并未被释放,对旧表的更改会改变新表的数据。hive> CREATE TAB原创 2015-03-11 22:08:32 · 1520 阅读 · 0 评论 -
Hive创建表
1.创建普通表hive> CREATE TABLE test_table(name STRING,userid INT,ip STRING COMMENT 'ip address of the user')COMMENT 'this is the test table';hive> show tables;OKtest_tableTime taken: 0.492 se原创 2015-03-11 22:05:25 · 1228 阅读 · 0 评论 -
初学HBase的几个问题
作者:iAm333 发表于2014-7-31 16:29:22 原文链接本文主要针对对HBase不了解的人。主要想基于个人的理解回答以下几个问题:什么是HBase?何时用HBase?与Hive、Pig的区别?HBase的结构为何HBase速度很快?HBase常用的操作有哪些?HBase的一些配置和监控什么是HBase?HBase,是Hadoop Database,是转载 2015-10-07 21:15:24 · 1011 阅读 · 0 评论