
Hadoop入门
文章平均质量分 80
luyee2010
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hadoop实例之HELLOWORLD
新建一个Map/Reduce工程文件:HelloWorld.java import java.io.OutputStream; import org.apache.hadoop.conf.*; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.*; public class HelloW原创 2012-12-05 02:03:02 · 3030 阅读 · 1 评论 -
Windows下Cygwin+Eclipse搭建Hadoop开发环境
百度文库: http://wenku.baidu.com/view/45409fc289eb172ded63b775.html转载 2013-02-24 18:04:29 · 1092 阅读 · 0 评论 -
Hadoop编程之MapReduce操作Mysql数据库
1,首先建立mysql的数据库,表:如下图 下面是MapReduce编程了,需要导入mysql数据库驱动jar包; 首先需要自定义Recoder,这里是CourceRecord public class CourceRecord implements Writable, DBWritable { int id; String name; int count;原创 2013-02-26 00:59:37 · 7161 阅读 · 0 评论 -
MapReduce编程之通过MapReduce读取数据,往Hbase中写数据
1,首先是map类: package com.hbase.maptohbase; import java.io.IOException; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text;原创 2013-03-10 03:32:42 · 9094 阅读 · 0 评论 -
MapReduce编程之倒排索引的实现
倒排索引:由于不是根据文档来确定文档所包含的内容,而是进行相反的操作,因而称为倒排索引 -------------------------------- map 输出: key:单词+文档URI, value:词频 ------------------------------- combiner 输入: key:单词+文档URI, value:词频 输出: key:单词原创 2013-04-06 23:16:59 · 7831 阅读 · 0 评论 -
Hadoop中碰到的一些错误的解决方法
Hadoop 0.20.2安装启动后 jps找不到NameNode 解决方案 单机伪分布式 cat hadoop-hadoop-namenode-ubuntu.log: 2013-01-19 00:34:55,812 ERROR org.apache.hadoop.hdfs.server.namenode.FSNamesystem: FSNamesystem initializati原创 2013-01-19 01:33:51 · 19222 阅读 · 3 评论 -
Hadoop中DataNode与NameNode之间的心跳机制
DataNode: 用于存储HDFS的数据, public class DataNode extends Configured implements InterDatanodeProtocol, ClientDatanodeProtocol, FSConstants, Runnable {。。。} 1,实现了InterDatanodeProtocol, ClientDatano原创 2013-03-17 00:21:12 · 5019 阅读 · 0 评论 -
hadoop源码TaskAttemptID TaskTrackerAction JobTracker,FileOutputCommitter相关
1,TaskAttemptID代表task attempt,一个task attempt就是一个map/reduce task 的一个实例taskid,而每个TaskAttemptID由两部分组成:TaskID+task序列号 eg: attempt_200707121733_0003_m_000005_0 代表2007年07月12日17点33分启动的第0003号作业(job)的第0原创 2013-04-15 01:51:20 · 2366 阅读 · 0 评论 -
hadoop源码之JobQueueTaskScheduler
class JobQueueTaskScheduler extends TaskScheduler ---------FIFO 1,start()方法 public synchronized void start() throws IOException { super.start(); taskTrackerManager.addJobInProgressListener原创 2013-04-15 13:16:18 · 1469 阅读 · 0 评论 -
cygwin openssh svn sed
原创 2013-05-15 20:35:27 · 830 阅读 · 0 评论 -
hadoop错误日志
现象:3个节点,启动之后namenode报错,且存活节点( Live Nodes )只显示1个 2013-05-14 20:01:09,839 INFO org.apache.hadoop.ipc.Server: IPC Server handler 9 on 9000: starting 2013-05-14 20:01:13,659 ERROR org.apache.hadoop.secu原创 2013-05-14 20:08:14 · 2326 阅读 · 0 评论 -
hadoop ssh无密码登陆
VM DHCP蛋疼了,这次整个static... scp原创 2013-07-09 19:48:36 · 1147 阅读 · 0 评论 -
hadoop0 release0.20.0编译出错
ant jar 成功 ant package (eclipse-files)失败:build.xml:908: 'java5.home' is not defined. Forrest requires Java 5 解决方案之一是:注释掉904与908行 <!-- to Ant on the command-line." /> --> <!-- to Ant原创 2013-10-15 14:08:54 · 1360 阅读 · 0 评论 -
facebook presto安装与配置 CDH4.4
presto http://www.dw4e.com/?p=141 http://blog.youkuaiyun.com/u012417026/article/details/14516631 conf hadoop@yard02:~/bigdata/presto-server-0.52/$ tar zxvf presto-server-0.52.tar.gz hadoop@yard02:~/bi原创 2013-11-20 20:06:48 · 7344 阅读 · 2 评论 -
Hadoop2.0 YARN cloudra4.4.0 WordCount实例
其他都没啥 这个 jar都在这里了。 import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritabl原创 2013-11-14 20:12:12 · 3579 阅读 · 2 评论 -
Hadoop2.0 YARN cloudra4.4.0安装配置
1, 1 2 3 hadoop@hadoop-virtual-machine:~$ cat /etc/hostname yard02 hadoop@hadoop-virtual-machine:~$ 2, 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 hadoop@hadoop-virt原创 2013-11-14 20:04:00 · 2627 阅读 · 0 评论 -
Maven编译HADOOP的common项目报错 。。。exec (compile-proto)。。。
[INFO] Apache Hadoop Annotations ......................... SUCCESS [4.657s] [INFO] Apache Hadoop Auth ................................ SUCCESS [1.359s] [INFO] Apache Hadoop Auth Examples ...........原创 2013-01-19 05:37:16 · 5813 阅读 · 0 评论 -
hadoop eclipse 配置
重装系统后有折腾了好久,才搞定。。感觉还是不靠谱。。先记录下 hadoop 伪分布式配置: 1,hadoop版本 hadoop@ubuntu:~/collector_3h/hadoop-0.20.2/bin$ ./hadoop version Hadoop 0.20.2 Subversion https://svn.apache.org/repos/asf/hadoop/common原创 2013-01-19 02:33:59 · 1052 阅读 · 0 评论 -
Hadoop示例程序之单词统计MapReduce
在eclipse下新建一个map/reduce Project 1,新建文件MyMap.java import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io原创 2012-12-06 02:13:10 · 3018 阅读 · 0 评论 -
新旧版hadoop的一些差别
Hadoop最新版本的MapReduce Release 0.20.0的API包括了一个全新的Mapreduce JAVA API,有时候也称为上下文对象。 新的API类型上不兼容以前的API,所以,以前的应用程序需要重写才能使新的API发挥其作用 。 新的API和旧的API之间有下面几个明显的区别。 新的API倾向于使用抽象类,而不是接口,因为这更容易扩展。例如,你可以添加一个方法转载 2012-12-24 01:31:47 · 1196 阅读 · 0 评论 -
hadoop的FileSystem 文件系统实现上传下载文件
实现文件的上传和下载: import java.io.BufferedInputStream; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOException; import java.io.原创 2012-12-24 00:02:04 · 14623 阅读 · 0 评论 -
MapReduce 的理解
1分钟理解map reduce,其实它就在我们身边:http://heipark.iteye.com/blog/845267,就是:查找与汇总呗 linux平台下有个ls指令,大家都很熟悉: ① ls | grep 2008 查询文件名包含2008的文件(这其实就是一个map,找到需要的数据) ② ls | grep 2008 | wc -l 计算上述指令查询文件个数(这转载 2012-12-27 00:07:31 · 975 阅读 · 0 评论 -
hadoop自带的存取小文件存取解决方案
现实场景;在系统中,存在大量的小文件存取,比如图片文件,一般在几M以内, 1),但是HDFS默认block大小是64M,如果直接存取在Hadoop中,将极大的消耗namenode的资源。直接放在hadoop文件系统中,大多只是做归档分析用,所以,我们就想能不能定期归档。 2),放在HBase中,由于Hbase的value最大长度是64KB,而很多小文件又大过这个级别。原创 2013-01-03 19:38:24 · 6633 阅读 · 1 评论 -
MapReduce源码 分析总结
转载自:http://blog.youkuaiyun.com/heyutao007/article/details/5725379 MapReduce源码分析总结 分类: Hadoop 2010-07-10 14:46 7521人阅读 评论(7) 收藏 举报 目录(?)[+] Javen-Studio 咖啡小屋httpwwwcppblogcomjavenstudioartic转载 2013-01-05 00:46:10 · 1128 阅读 · 0 评论 -
自定义hadoop map/reduce输入文件切割InputFormat
自定义hadoop map/reduce输入文件切割InputFormat 2012-12-05 19:52:29| 分类: hadoop | 标签:自定义 hadoop map/reduce inputformat |字号大中小 订阅 hadoop会对原始输入文件进行文件切割,然后把每个split传入mapper程序中进行处理,FileInpu转载 2013-01-05 18:10:24 · 1702 阅读 · 0 评论 -
eclipse编译hadoop源码
eclipse编译hadoop源码 由于开发mapreduce的时候,有时需要看源码,再次down下来,编译了下,仅作为学习记录 首先需要安装ant,svn(我用的是eclipse的插件); svn地址:http://svn.apache.org/repos/asf/hadoop/common/tags/release-0.20.2/ check后,直接ant编译就ok了,原创 2013-01-05 18:05:30 · 2764 阅读 · 0 评论 -
mapreduce的文件拆分,FileInputFormat
在map之前会对要处理的文件进行拆分,按照定义的格式进行都写操作。主要是在InputFormat中, InputFormat是一个抽象类,主要有两个抽象方法: 1, public abstract List getSplits(JobContext context) throws IOException, InterruptedException; 确认输入的且分原则 2, pub原创 2013-01-05 23:44:10 · 8173 阅读 · 0 评论 -
hadoop 的HDFS文件系统
一,NameNode 元数据节点:管理文件系统 secondary namenode从元数据节点:元数据节点的别用节点 二,DataNode 数据节点:存储数据的地方 1)客户端向其请求读取或写入文件,元数据节点发起 2)周期性的想元数据节点回报当前存储的数据快信息 三,Block数据块:最基本的存储单位,默认64m,当一个文件大小小于一个数据块的大小时,并原创 2012-12-11 01:33:21 · 1501 阅读 · 0 评论 -
hadoop的源码分析之RPC(Remote Procedure Call Protocol)
理解这个RPC是不是的先去理解哈动态代理 好多invoke,还有Socket网络编程 先来张eclipse下IPC源码图: 先来看看RPC.java,既然是动态代理,自然会想到Invoke()方法了,先来看看RPC中的Invoker中的invoke()方法 private static class Invoker implements InvocationHandler原创 2013-01-12 16:49:19 · 1209 阅读 · 0 评论 -
Maven ERROR hadoop源码mvn工程导入后
hadoop源码mvn工程导入 1,Project configuration is not up-to-date with pom.xml. Run Maven-Dependenciesroject>Update Project or use Quick Fix. 终于搞定了,项目右键——>【Maven】——>【Update Project ....】,打开一个(Update Maven P原创 2013-01-13 19:20:58 · 1709 阅读 · 0 评论 -
eclipse maven 编译hadoop源码
需要安装maven3才可以, 1,svn checkout http://svn.apache.org/repos/asf/hadoop/common/trunk/ ./ 2,mvn install -DskipTests 3,mvn eclipse:eclipse -DdownloadSources=true -DdownloadJavadocs=true原创 2013-01-13 18:20:12 · 5738 阅读 · 0 评论 -
eclise中启动Hbase的Hmaster,玩玩shell
首先master: 参数: 运行 hbase shell hbase shell参数 运行起来后hbase的shell 跑几个命令试试发现可以了: create 't_person','no','name' create 't_person','no','name' 0 row(s) in 2.5020 seconds Hbase::Ta原创 2014-03-30 02:47:07 · 1719 阅读 · 0 评论