
Hadoop开发
文章平均质量分 79
海兰
正在构思中
展开
-
[hadoop2.7.2]搭建eclipse源码阅读环境
有的小伙伴在问我如何在windows下搭建一个eclipse的hadoop源码阅读环境,今天就以hadoop2.7.2为例,简单介绍下如何搭建。环境及工具如下:1、系统:windows72、eclipse版本:eclipse-jee-mars-1-win323、jdk版本:1.74、maven版本:3.3.35、protoc版本:2.5.06、hadoop:2.7.2原创 2016-03-03 14:42:54 · 4831 阅读 · 2 评论 -
运行hadoop MapReduce程序常见错误及解决方法整理
一、Permission denied1、Win系统下用Eclipse中运行远程hadoop MapReduce程序出现报错org.apache.hadoop.security.AccessControlException: org.apache.hadoop.security.AccessControlException: Permission denied: user=xxx, acc原创 2015-02-09 16:29:14 · 18640 阅读 · 1 评论 -
Hadoop2.4.0环境搭建常见问题解答(虚拟机,ubuntu系统)
1、如果系统为64位,无法启动启动hdfs: ./sbin/start-dfs.sh。并有以下错误:sed: -e expression #1, char 6: unknown option to `s'HotSpot(TM): ssh: Could not resolve hostname HotSpot(TM): Name or service not known64-Bit: ssh原创 2014-04-20 20:59:45 · 4327 阅读 · 1 评论 -
Hadoop2.2.0版本多节点集群及eclipse开发环境搭建
鉴于部分网友在搭建hadoop2.2.0过程中遇到各种各样的问题,特记录本人搭建集群环境,以作参考。环境:1、虚拟机:VMware® Workstation,版本:10.0.02、操作系统:ubuntu-13.103、hadoop版本:hadoop-2.2.0下载地址4、本文所用两台机器分工如下................原创 2013-12-31 16:33:06 · 13517 阅读 · 55 评论 -
MapReduce
MapReduce一个 MapReduce 作业包括 Map 任务,shuffle过程,排序过程和一套 Reduce 任务。然后框架会管理作业的分配和执行,收集输出和向用户传递作业结果。原创 2013-07-11 14:43:10 · 1156 阅读 · 0 评论 -
Hadoop: the definitive guide 第三版 拾遗 第四章 之CompressionCodec
一是改写codec示例程序将标准输入流压缩后的文件存放到HDFS上;二是,改写输入:HDFS上存放文件,输出:压缩后的文件存放至HDFS上原创 2013-08-09 08:10:47 · 2400 阅读 · 0 评论 -
你刚才在淘宝上买了一件东西---Ბ来自阿里员工卡特
你发现快要过年了,于是想给你的女朋友买一件毛衣,你打开了www.taobao.com。这时你的浏览器首先查询DNS服务器,将www.taobao.com转换成ip地址。不过首先你会发现,你在不同的地区或者不同的网络(电信、联通、移动)的情况下,转换后的IP地址很可能是 不一样的,这首先涉及到负载均衡的第一步,通过DNS解析域名时将你的访问分配到不同的入口,同时尽可能保证你所访问的入口是所有入口中可转载 2013-09-26 16:58:35 · 3346 阅读 · 1 评论 -
AWS云搜索的使用:极简Java API
作者 Boris Lublinsky当前,许多应用重度依赖于搜索功能。从电子商务网站中寻找合适的产品,到社交网络中搜索寻人,再到地图网站中寻找POI和地址,依赖于搜索的应用非常广泛。亚马逊新推出的云搜索服务,为自行实现搜索功能或定制安装Apache Lucene、Apache Solr和elasticsearch等流行产品提供了可行的替代方式。他们这样描述该服务:转载 2013-09-25 17:29:03 · 1951 阅读 · 0 评论 -
Hadoop: the definitive guide 第三版 拾遗 第十二章 之Hive初步
Hive定义Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reduce原创 2013-08-20 15:26:28 · 1985 阅读 · 0 评论 -
hbase:伪分布环境搭建及常见错误解决方法
配置注意事项1、 ssh必须安装ssh , sshd 也必须运行,这样Hadoop的脚本才可以远程操控其他的Hadoop和HBase进程。ssh之间必须都打通,不用密码都可以登录,详细方法可以Google一下 ("ssh passwordless login").2、hostnameHBase使用本地 hostname 才获得IP地址. 正反向的DNS都是可以的.如果你原创 2013-09-09 10:08:21 · 7501 阅读 · 0 评论 -
[hadoop2.7.1]I/O之Writable源码及相关注解
由于Hadoop的MapReduce和HDFS都有通信的需求,需要对通信的对象进行序列化。Hadoop并没有采用Java的序列化,而是基于java.io里的DataOutput和DataInput引入了它自己的系统,一个简单高效的序列化协议。org.apache.hadoop.io中定义了大量的可序列化对象,他们都实现了Writable接口。原创 2015-10-16 09:31:19 · 1837 阅读 · 0 评论 -
[hadoop2.7.1]I/O之IntWritable测试实例(详尽)
用到的工具:hamcrest,junitIDE:MyEclipse 2013 SR1原创 2015-11-01 14:27:37 · 2689 阅读 · 0 评论 -
[hadoop2.7.1]I/O之SequenceFile最新API编程实例(写入、读取)
根据上一篇的介绍,在hadoop2.x之后,hadoop中的SequenceFile.Writer将会逐渐摒弃大量的createWriter()重载方法,而整合为更为简洁的createWriter()方法,除了配置参数外,其他的参数统统使用SequenceFile.Writer.Option来替代,具体有:这些参数能够满足各种不同的需要,参数之间不存在顺序关系,这样减少了代码编写工作量,更为直观,便于理解,下面先来看看这个方法,后边将给出一个具体实例。原创 2015-11-06 22:13:34 · 6204 阅读 · 4 评论 -
[hadoop2.7.1]I/O之tfile
在这儿做个记录吧org.apache.hadoop.io.file.tfile.TFile@Public@EvolvingA TFile is a container of key-value pairs. Both keys and values are type-less bytes. Keys are restricted to 64KB, value length原创 2015-12-03 09:35:42 · 1390 阅读 · 0 评论 -
[hadoop2.7.1]I/O之序列化(WritableSerialization)示例
首先先引入hadoop2.7.1中的一个工具类GenericsUtil,顾名思义,是用来处理java泛型的一个工具类,这个类很简单,但很实用。原创 2015-12-11 15:38:34 · 1621 阅读 · 0 评论 -
[hadoop2.7.1]I/O之序列化(serializer)
先来看下org.apache.hadoop.io.serializer的类图(hadoop2.7.1):原创 2015-12-03 10:33:36 · 2535 阅读 · 0 评论 -
[hadoop2.7.1]I/O之“泥坯块”SequenceFile前序知识
概述 SequenceFile由一系列的二进制key/value组成,如果为key小文件名,value为文件内容,则可以将大批小文件合并成一个大文件。可以看做是一个容器,它将这些小文件组织起来统一存储。 为什么要这么做呢? 首先要了解,在这里小文件是指文件size比HDFS上block size(hadoop中默认为64M)小的文件,可能会小得多。下面从处理性能和存储能力两个方面分别进行解析。原创 2015-11-05 17:21:14 · 2363 阅读 · 0 评论 -
[hadoop2.7.1]I/O之一步一步解析Text(基础知识及与String比较)
hadoop中的Text类,跟java中的String类很相似,在其定义的方法上,也多有相近之处,当然,由于用途的不同,两者之间还是有很大的区别的,那么,在分析Text类之前,先来回顾下java.lang.String类。hadoop中的Text类和java中的String类都是使用标准的Unicode,但是在编码方式上却有不同之处,hadoop中的Text类使用UTF-8,而java中的String类使用的是UTF-16。接下来,对于Unicode做一个较为详细的阐述。原创 2015-11-03 15:33:22 · 5250 阅读 · 0 评论 -
[hadoop2.7.1]I/O之压缩
先来看下类图:原创 2015-11-13 13:41:26 · 1293 阅读 · 0 评论 -
[hadoop2.7.1]I/O之一步一步解析Text(实例)
通过上一篇的讲述,我们知道hadoop中的Text类,跟java中的String类很相似,在其定义的方法上,也多有相近之处,当然,由于用途、UTF编码的不同,两者之间还是有很大的区别。下面要讲实例除了测试Text的方法之外,着重跟java.lang.String进行比较。首先,我们先写生成String串的方法注意:默认的equals方法是直接返回==的结果,所以也是比较数组是否是同一个,等同于使用==比较,是两个数组是否是同一个,而不是是否相等。原创 2015-11-04 16:36:33 · 3312 阅读 · 0 评论 -
[hadoop2.7.1]I/O之Writable的实现类及子接口
Hadoop引入org.apache.hadoop.io.Writable接口,是所有可序列化对象必须实现的接口。在hadoop2.71.中,它共有6个子接口。 WritableComparable,顾名思义,它提供类型比较的能力,WritableComparables 能够通过 Comparators进行互相比较。主要是针对MapReduce而设计的,中间有个排序很重要。在 Hadoop Map-Reduce framework中,任何key值类型都要实现这个接口。原创 2015-10-20 14:21:58 · 2423 阅读 · 4 评论 -
[hadoop2.7.1]I/O之MapFile(排过序的SequenceFile)读、写、重建index实例
MapFile是排序后的SequenceFile,MapFile由两部分组成,分别是data和index。index文件的数据索引,主要记录了每个Record的key值,以及该Record在文件中的偏移位置。在MapFile被访问的时候,索引文件会被加载到内存,通过索引映射关系可迅速定位到指定Record所在文件位置,因此,相对SequenceFile而言,MapFile的检索效率是高原创 2015-11-08 10:02:53 · 2495 阅读 · 1 评论 -
基于MapReduce的HBase开发
在伪分布式模式和全分布式模式下 HBase 是架构在 HDFS 上的,因此完全可以将MapReduce 编程框架和 HBase 结合起来使用。也就是说,将 HBase 作为底层“存储结构”,MapReduce 调用 HBase 进行特殊的处理,这样能够充分结合 HBase 分布式大型数据库和MapReduce 并行计算的优点。 相对应MapReduce的hbase实现类: 1)Inp原创 2013-09-10 21:40:04 · 14276 阅读 · 4 评论 -
基于MapReduce的HBase开发(续)
示例代码:import java.io.ByteArrayOutputStream; import java.io.DataOutputStream; import java.io.IOException; import java.util.HashMap; import org.apache.hadoop.conf.Configuration; import org.apa原创 2013-09-12 13:27:49 · 3460 阅读 · 2 评论 -
hbase开发,hbase表操作及其java api实现
开发环境:hadoop: hadoop-1.1.2hbase: hbase-0.94.11-securityeclipse:Juno Service Release 2配置Eclipse 通过 Eclipse 创建一个新 Java 工程,右击项目根目录,选择“Properties> Java Build Path> Library> Add External JAR原创 2013-09-09 16:15:04 · 23631 阅读 · 7 评论 -
Hadoop HDFS文件操作 Java实现类
1、创建HDFS目录import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;public class MakeDir { public static vo原创 2013-07-17 17:31:29 · 8326 阅读 · 7 评论 -
MapReduce的逻辑数据流图
MapReduce logical data flow: At the bottom of the diagram is a Unix pipeline, which mimics the whole MapReduce flow .原创 2013-07-11 16:33:24 · 1825 阅读 · 0 评论 -
Application to find the maximum temperature in the weather dataset
hadoop权威指南中MapReduce例子Application to find the maximum temperature in the weather dataset。原创 2013-07-12 15:21:13 · 1164 阅读 · 0 评论 -
Reducer for the maximum temperature example
import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Reducer;public class MaxTemperatureReducer extends Reducer原创 2013-07-12 14:17:59 · 1128 阅读 · 0 评论 -
Mapper for the maximum temperature example
( The line has been split into multiple lines to show each field; in the real file, fields are packed into one line with no delimiters.)Format of a National Climate Data Center record:005733213原创 2013-07-11 16:44:56 · 1272 阅读 · 0 评论 -
MapReduce数据流
Hadoop does its best to run the map task on a node where the input data resides inHDFS. This is called the data locality optimization because it doesn’t use valuable clus-ter bandwidth. Sometimes,原创 2013-07-11 15:17:34 · 2291 阅读 · 0 评论 -
Hadoop学习之初
学习Hadoop必须先记在心里的东西:1、cygwin只是模拟了linux环境2、hadoop必须安装在linux环境上3、mapreduce程序开发直接就在window上开发即可4、mapreduce程序的运行:可以把写好的程序打成jar包 放到hadoop集群上 执行hadoop命令(就像大家安装完 验证集群是否正常运行那样 ”计算圆周率“一样)5、 我们学的是hadoop原创 2013-07-10 15:29:07 · 2373 阅读 · 6 评论 -
MapReduce Model
¢Programmersspecify two functions:map (k, v) → *reduce (k’, v’) → *All values with thesame key are sent to the same reducer¢The execution framework handles everything else…MapReduc原创 2013-07-11 08:40:43 · 1643 阅读 · 1 评论 -
简单验证hadoop的wordcount
1、执行hadoop中的wordcount,得出一结果。2、对于某个指定单词在ubuntu中的文件所在目录下执行:grep 指定单词 所有统计文件|wc原创 2013-07-31 09:21:18 · 1312 阅读 · 0 评论 -
Hadoop: the definitive guide 第三版 拾遗 第十一章 之Pig
概述:Pig的安装很简单,注意一下几点:1、设置系统环境变量: export PIG_HOME=.../pig-x.y.zexport PATH=$PATH:$PIG_HOME/bin设置完成后使用pig -help进行验证一下。2、两种mode:local mode:访问本地文件系统,进入shell时使用命令:pig -x localMapReduce mode:pig原创 2013-08-16 16:35:50 · 2687 阅读 · 0 评论 -
Hadoop: the definitive guide 第三版 拾遗 第十二章 之Hive架构
Hive 体系结构Hive 的结构如图所示,主要分为以下几个部分:用户接口,包括 CLI,Client,WUI。元数据存储,通常是存储在关系数据库如 mysql, derby 中。解释器、编译器、优化器、执行器。Hadoop:用 HDFS 进行存储,利用 MapReduce 进行计算。用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是 CL原创 2013-08-21 09:40:13 · 1479 阅读 · 0 评论 -
Hadoop: the definitive guide 第三版 拾遗 第三章 之查看文件及正则表达式
Hadoop: the definitive guide 第三版 拾遗 第三章 之查看文件及正则表达式原创 2013-08-01 11:46:15 · 1598 阅读 · 0 评论 -
hbase:单机环境搭建、hbase表操作示例(create, list, put, get, scan, disable, drop...)
选择 Hadoop 版本对HBase部署很关键。下表显示不同HBase支持的Hadoop版本信息。基于HBase版本,应该选择合适的Hadoop版本。本文使用环境java6 (注:和Hadoop一样,HBase需要Oracle版本的Java6.除了那个有问题的u18版本其他的都可以用,最好用最新的。)Hadoop-1.1.2hbase-0.94.11-security.tar.gzUbuntu12.04原创 2013-09-04 10:19:07 · 9564 阅读 · 0 评论 -
Hadoop: the definitive guide 第三版 拾遗 第十三章 之HBase起步
指南上这一章的开篇即提出:HBase是一个分布式的、面向列的开源数据库。如果需要实时的随机读/写超大规模数据集,HBase无疑是一个好的选择。简介HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用 HBase 技术可在廉价 PC Server 上搭建起大规模结构化存储集群。 HBase 的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由原创 2013-09-03 12:50:04 · 2421 阅读 · 0 评论 -
Hadoop: the definitive guide 第三版 拾遗 第十二章 之HiveQL命令大全
HiveQL是一种类似SQL的语言, 它与大部分的SQL语法兼容, 但是并不完全支持SQL标准, 如HiveQL不支持更新操作, 也不支持索引和事务, 它的子查询和join操作也很局限, 这是因其底层依赖于Hadoop云平台这一特性决定的, 但其有些特点是SQL所无法企及的。例如多表查询、支持create table as select和集成MapReduce脚本等, 本节主要介绍Hive的数据类原创 2013-08-26 16:08:11 · 1881 阅读 · 0 评论