
hadoop
yfk
这个作者很懒,什么都没留下…
展开
-
Hadoop客户端环境配置
1. 安装客户端(通过端用户可以方便的和集群交互)2. 修改客户端~/.bashrcalias hadoop='/home/work/hadoop/client/hadoop-client/hadoop/bin/hadoop' #hadoop 可执行文件位置alias hls='hadoop fs -ls' alias hlsr='hadoop fs -lsr' alias hcp='hadoop fs -cp ' alias hmv='hadoop fs -mv' alias hget原创 2011-05-03 22:06:00 · 8592 阅读 · 0 评论 -
hive指南
译自:https://cwiki.apache.org/confluence/display/Hive/Tutorialhive是什么?hive是基于hadoop构建的数据仓库基础架构,通过提供一系列的工具,使得用户能够方便的做数据ETL,数据结构化,并针对存放在hadoop上的海量数据进行查询和分析。hive定义了一种简单的类SQL查询语言---QL,QL语言方便熟悉SQL语言的翻译 2012-07-16 16:58:31 · 4103 阅读 · 0 评论 -
hive bucket
hive中table可以拆分成partition,table和partition可以通过‘CLUSTERED BY ’进一步分bucket,bucket中的数据可以通过‘SORT BY’排序。bucket主要作用:1. 数据sampling2. 提升某些查询操作效率,例如mapside join需要特别注意的是:clustered by和sorted by不会影响数据的导入,这意味原创 2012-08-01 11:35:53 · 17101 阅读 · 2 评论 -
Map-Reduce简介
MapReduce是一种编程模型,始于:Dean, Jeffrey & Ghemawat, Sanjay (2004). "MapReduce: Simplified Data Processing on Large Clusters"。主要应用于大规模数据集的并行运算。其将并行计算简化为Map和reduce过程,极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。程原创 2011-05-03 16:11:00 · 3446 阅读 · 0 评论 -
HBase原子性保证
HBase提供基于单行数据操作的原子性保证即:对同一行的变更操作(包括针对一列/多列/多column family的操作),要么完全成功,要么完全失败,不会有其他状态原创 2014-07-14 22:53:52 · 13478 阅读 · 0 评论 -
Hadoop数据传输工具sqoop
概述sqoop是Apache顶级项目,主要用来在Hadoop和关系数据库中传递数据。通过sqoop,我们可以方便的将数据从关系数据库导入到HDFS,或者将数据从HDFS导出到关系数据库。sqoop架构:sqoop架构非常简单,其整合了Hive、Hbase和Oozie,通过map-reduce任务来传输数据,从而提供并发特性和容错。sqoop的进一步发展可以参考:A Ne原创 2013-03-24 19:22:05 · 64278 阅读 · 4 评论 -
hive修改表模式
hive用户可以通过alter语句更改table属性Alter Partitions增加partitions:ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec [LOCATION 'location1'] partition_spec原创 2012-08-14 09:20:31 · 60903 阅读 · 0 评论 -
hive array、map、struct使用
hive提供了复合数据类型:Structs: structs内部的数据可以通过DOT(.)来存取,例如,表中一列c的类型为STRUCT{a INT; b INT},我们可以通过c.a来访问域aMaps(K-V对):访问指定域可以通过["指定域名称"]进行,例如,一个Map M包含了一个group-》gid的kv对,gid的值可以通过M['group']来获取Arrays:array中的原创 2012-08-08 10:50:22 · 83751 阅读 · 1 评论 -
Hadoop MapReduce
Hadoop MapReduce是一个用于处理海量数据的分布式计算框架。这个框架解决了诸如数据分布式存储、作业调度、容错、机器间通信等复杂问题,可以使没有并行处理或者分布式计算经验的工程师,也能很轻松地写出结构简单的、应用于成百上千台机器处理大规模数据的并行分布式程序。 Hadoop MapReduce基于“分而治之”的思想,将计算任务抽象成map和reduce两个计算过程,可以简单理解为“分散运算—归并结果”的过程。一个MapReduce程序首先会把输入数据分割成不相关的若干键/值对(key1/valu原创 2011-05-03 16:53:00 · 3453 阅读 · 0 评论 -
Hadoop Streaming 实战: grep
streaming支持shell 命令的使用。但是,需要注意的是,对于多个命令,不能使用形如cat; grep 之类的多命令,而需要使用脚本,后面将具体介绍。 下面示例用grep检索巨量数据: 1. 待检索的数据放入hdfs $ hadoop fs -put localfile /user/hadoop/hadoopfile 使用方法:hadoop fs -put ... 从本地文件系统中复制单个或多个源路径到目标原创 2011-05-05 10:17:00 · 10122 阅读 · 0 评论 -
Hadoop Streaming 实战: bash脚本
streaming支持使用脚本作为map、reduce程序。以下介绍一个实现分布式的计算所有文件的总行数的程序 1. 待检索的数据放入hdfs $ hadoop fs -put localfile /user/hadoop/hadoopfile 2. 编写map、reduce脚本,记得给脚本加可执行权限。 mapper.sh #!/bin/sh wc –l reducer.sh #!/bin/sh sum原创 2011-05-05 11:59:00 · 8162 阅读 · 9 评论 -
Hadoop Streaming: c++编写uniq程序
1. 描述使用Hadoop streaming对输入数据的第一列进行uniq去重计算,采用c++编写map-reduce程序。2. mapper程序mapper.cpp#include #include using namespace std;#define BUFFER_SIZE 102400#define DELIM "\t"int main(int arg原创 2011-10-20 17:10:28 · 4934 阅读 · 3 评论 -
Hadoop socket测试
概要:hadoop上以streaming方式运行map任务,map任务为socke client端,和在外部系统运行的server交互代码:server.cpp#include #include #include #include #include #include #include #include #include #include #include原创 2011-11-01 14:35:05 · 3369 阅读 · 0 评论 -
HBase应用:Table设计
从应用角度,有两点比较重要:1. HBase中RowKey是按照字典序排列的2. 不同Column Family的数据,在物理上是分开的原创 2014-06-30 21:55:36 · 19349 阅读 · 0 评论