
Hadoop
文章平均质量分 84
风声2012
这个作者很懒,什么都没留下…
展开
-
【Hadoop】集群之外的机器如何连接到集群并与HDFS交互,提交作业给Hadoop集群
集群以外的机器如何访问Hadoop集群,并像集群中提交作业和传送数据(1)首先,在机器上安装nutch或者hadoop(2)配置两个文件hadoop-site.xml: fs.default.name hdfs://gc04vm12:9000 mapred.job.tracker gc04vm12:9001 (3)这样便能执行命令,查看集群状态,向集群提交作业(4原创 2010-05-24 00:44:00 · 21280 阅读 · 2 评论 -
Hadoop进程启动过程分析
使用start-dfs.sh启动hdfs进程的详细过程涉及的脚本有:bin下:hadoop-config.sh start-dfs.sh hadoop-daemons.sh slaves.shhadoop-daemon.sh hadoopconf下:hadoop-env.sh 其中 hadoop-config.sh 和 h原创 2013-09-12 20:19:06 · 6411 阅读 · 1 评论 -
[MapReduce] mapreduce 编程向标准错误输出报告以跟踪Mapreduce程序运行过程中的中间信息
在 mapreduce streaming 程序中向标准错误输出日志语句是一个很好的习惯. 输出到标准错误的信息将以报告形式输出.这样可以在网页中查看job运行过程中的中间信息.并且 mapreduce 程序默认在一段时间中没有任何输出(stdout, stderr) 时会将 job kill, 这可以避免此类问题.例如: python 中的 print >>s原创 2013-09-19 13:32:08 · 2438 阅读 · 0 评论 -
实现每个Map或Reduce任务只执行一次map或reduce方法
实现每个Map或Reduce任务只执行一次map或reduce方法 默认情况下map和reduce方法是针对每一个对执行一次,但是用户可以书写让map或reduce task只执行一次map或者reduce方法的应用程序。书写这样的程序之前,请先弄清MapReduce框架中map、reduce方法的运行方式。 实际上只需要在用户程序的map类和reduce类中重载run方法,把循环遍历每个输入的对放到map函数和reduce函数中处理就行了。 将代码打包成jar后,在集群中运行。 h原创 2010-08-16 19:12:00 · 3920 阅读 · 0 评论 -
[MapReduce] 如何向map和reduce脚本传递参数,加载文件和目录
本文主要讲解三个问题: 1 使用Java编写MapReduce程序时,如何向map、reduce函数传递参数。 2 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时,如何向map、reduce脚本传递参数。 3 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时,如何原创 2013-09-19 13:27:46 · 6354 阅读 · 0 评论 -
Java 命令行模式下编译 MapReduce 程序
不使用 eclipse 这些工具,直接使用 java 命令在命令行下编译 mapreduce 程序。首先需要设置CLASSPATH环境变量:将/root/hadoop/hadoop-0.20.1/hadoop-0.20.1/hadoop-0.20.1-core.jar和lib下的commons-cli-1.2.jar添加进入环境变量,export CLASSPA原创 2013-09-12 20:17:38 · 3020 阅读 · 0 评论 -
MapReduce框架中map、reduce方法的运行方式
MapReduce程序中的map和reduce方法是重载Mapper类和Reducer类的map和reduce方法。MapReduce程序中的map和reduce方法在框架中默认是如下运行方式:针对一个对运行一次map方法或者reduce方法,其具体实现见package org.apache.hadoop.mapreduce包下的Mapper类和Reducer类。实现机制: Mapper类和Reducer类的run方法中将针对输入的所有对,循环执行map方法和reduce方法。请见代码Mapper类:pac原创 2010-08-16 17:13:00 · 4779 阅读 · 0 评论 -
Hadoop 中文编码相关问题 -- mapreduce程序处理GBK编码数据并输出GBK编码数据
输入是GBK文件, 输出也是 GBK 文件的示例代码:Hadoop处理GBK文本时,发现输出出现了乱码,原来HADOOP在涉及编码时都是写死的UTF-8,如果文件编码格式是其它类型(如GBK),则会出现乱码。此时只需在mapper或reducer程序中读取Text时,使用transformTextToUTF8(text, "GBK");进行一下转码,以确保都是以UTF-8的原创 2013-09-19 13:39:32 · 18919 阅读 · 3 评论 -
Hadoop多用户环境下用户执行jar出错
除安装hadoop的用户、root用户之外的所有用户执行 jar 时,均出现如下错误。Exception in thread "main" java.io.IOException: 权限不够at java.io.UnixFileSystem.createFileExclusively(Native Method)at java.io.File.createTempFile(File.j原创 2012-09-11 19:08:33 · 2593 阅读 · 0 评论 -
【Nutch】Linux下Nutch分布式配置和使用
Linux下Nutch分布式配置和使用 目 录介绍.20集群网络环境介绍.21 /etc/hosts文件配置.22 SSH无密码验证配置.22.1配置所有节点之间SSH无密码验证.23 JDK安装和Java环境变量配置.33.1安装 JDK 1.633.2 Java环境变量配置.44 Hadoop集群配置.原创 2010-05-24 01:09:00 · 6707 阅读 · 3 评论 -
Hadoop官网中英资料文档搜集
<br /> <br />Hadoop官网位置:<br /> Apache官网 http://www.apache.org/ 下选择 Apache Projects 中的 Hadoop 即可进入Hadoop官方网站 。<br /> <br />Hadoop官网:<br /> http://hadoop.apache.org/<br /> <br />Hadoop 文档位置:<br /> Hadoop官网下选择common —> Documentation 即可查看相关版本的hadoo原创 2010-10-26 09:43:00 · 3552 阅读 · 0 评论 -
Hadoop分布式文件系统:架构和设计
<br />Hadoop分布式文件系统:架构和设计<br />原文:http://hadoop.apache.org/common/docs/r0.18.2/cn/<br />一、前提和设计目标<br />1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。<br />2、跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据访问的低延迟问题,更关键的在于数据访问的原创 2010-10-26 09:48:00 · 849 阅读 · 0 评论 -
Cassandra 和 HBase 中使用的 BigTable 模型
<br />Cassandra 和 HBase 中使用的 BigTable 模型<br /> <br />转自 http://lgone.com/html/y2010/812.html<br /> <br />众所周知,BigTable是NoSQL数据库的王者,其论文更是NoSQL理论的基石,但遗憾的是BigTable不开源,于是有了开源的BigTable版本这一说法,其中的佼佼者包括今天提到的两位:Cassandra和HBase。<br />本文主要对Cassandra和HBase特性和实现中对BigTa转载 2010-10-29 16:20:00 · 861 阅读 · 0 评论 -
【Hive/HBase】Hive与HBase的整合
<br />Hive与HBase的整合<br />http://www.javabloger.com/article/apache-hadoop-hive-hbase-integration.html原创 2011-03-25 11:30:00 · 1151 阅读 · 0 评论 -
【HBase/Hibe】搜集资料——MySQL向Hive/HBase的迁移
<br />发现一个博客,讲了许多很好的东西,这里搜集一下:<br />MySQL向Hive/HBase的迁移<br />参见:<br />http://www.javabloger.com/article/apache-hadoop-hive-hbase-integration.html原创 2011-03-25 11:29:00 · 1668 阅读 · 0 评论 -
基于Hadoop的数据挖掘项目mahout的源码编译
<br /><br />前提: 机器能联网<br />(1) 用SVN下载Mahout最新源码,check out http://svn.apache.org/repos/asf/mahout/trunk<br /> 注: 发行版源码在 http://archive.apache.org/dist/mahout/ 下<br />(2) 下载 maven,这里下载二进制版本的 maven-3.0.3,在 http://archive.apache.org/dist/maven/binaries/ 中下载原创 2011-04-01 20:15:00 · 5441 阅读 · 1 评论 -
Hadoop TeraSort 基准测试实验
<br /><br />Author: zhankunlin<br />Date: 2011-4-1<br />Key words: Hadoop, TeraSort<br /> <br /><一> TeraSort 介绍<br />1TB排序通常用于衡量分布式数据处理框架的数据处理能力。Terasort是Hadoop中的的一个排序作业,在2008年,Hadoop在1TB排序基准评估中赢得第一名,耗时209秒。<br /><二> 相关资料<br />Hadoop MapReduce扩展性的测试: http原创 2011-04-01 20:16:00 · 16645 阅读 · 4 评论 -
很好的 Hadoop、HBase 等开源项目资料网址(持续更新)
Normal 0 7.8 磅 0 2 false false false MicrosoftInternetExplorer4 <!-- /* Style原创 2011-07-01 14:56:00 · 209 阅读 · 0 评论 -
编译 Hadoop-append 用于Hbase
Hbase基于 hadoop,若 Hbase 直接使用 release 版本的 hadoop,可能出现数据丢失的情况,hbase 需要使用 hadoop-append ,详细介绍参考Hbase 官网资料下面以 hbase-0.90.2 为例,介绍 hadoop-0.20.2-append 的编译,以下操作参考:Building an Hadoop 0.20.x version for原创 2012-01-10 17:10:19 · 1912 阅读 · 0 评论 -
MapReduce 程序本地调试 / Hadoop 操作本地文件系统
将 hadoop 主目录下的 conf 下的配置文件全部置空.此时运行 hadoop 命令将使用本地文件系统, 可以在本地运行 mapreduce 程序, 操作磁盘上的文件.例如:kentHadoopUnit jar NewsProcessMR.jar view.txt out view 这将在本地执行 mapreduce 程序, 这可以方便本地做调试.原创 2013-04-14 12:04:47 · 4694 阅读 · 2 评论