自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

Hadoop 自动安装脚本

Email:biansutao[@]gmail[DOT]com还不能实现完全自动安装,只能算半自动的。进行交互主要障碍有两点:1. ssh-keygen的时候需要点击回车。2. passwd 需要设置密码 如果谁能解决以上两点,欢迎email给我。另外:需要JDK和Hadoop压缩包第一步: 设置Root用户的SSH 无密码访问              为了之后修改Hosts文件,配置环境变量,...

2012-05-08 16:57:39 187

原创 HDFS 中的其他操作

1. 创建目录  public static void main(String[] args) throws IOException{ String hdfsDest = "hdfs://192.168.1.150:9000/tmp/123/321"; // HDFS中存储的文件名 Configuration conf = new Configuration(); ...

2012-04-13 14:47:20 126

原创 HDFS 中写入数据

 import java.io.BufferedInputStream;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import java.net.URI; import org....

2012-04-13 14:43:04 182

原创 HDFS 中读取数据的方法

方法之一: 通过URL  import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;import java.net.MalformedURLException;import java.net....

2012-04-13 13:53:57 249

原创 Hadoop 任务调度

mapred-site.xml 文件                   <property>                        <name>mapred.jobtracker.taskScheduler</name>                        <value>org.apache.hadoop....

2012-03-30 14:52:27 128

原创 Hadoop 运行硬件的选择

Hadoop权威指南上推荐的硬件配置: CPU:2个四核的 intel Xeon 2.0GHZ  Memory: 8GB ECC RAM Disk: 4 TB  SATA 硬盘 Network:千兆以太网   最少3台 DataNode 节点否则Replication = 3 不能实现。  ...

2012-03-16 11:16:49 231

原创 如何配置Hadoop的 Secondary节点 & NameNode节点失效恢复

原创: 第一部分: 如何设置Secondary NameNode节点(单独的) 1. 在masters文件中添加 Secondary节点的主机名。  2.  修改hdfs-default.xml  文件        <property>               <name>dfs.http.address</name&gt...

2012-03-16 09:58:25 543

原创 Hadoop SecondaryNameNode 异常

异常信息 2012-03-15 16:52:01,150 WARN org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode: Checkpoint Period   :3600 secs (60 min)2012-03-15 16:52:01,151 WARN org.apache.hadoop.hdfs.server.n...

2012-03-15 17:21:15 176

原创 Warning: $HADOOP_HOME is deprecated. 关闭

添加   export HADOOP_HOME_WARN_SUPPRESS=TRUE 到 hadoop-env.sh  中 注意要添加到集群中每一个节点中。 版本:hadoop 0.20.205 原因: Hadoop 在bin/hadoop-config.sh 中对HADOOP_HOME 进行了判断 判断发生的地方:# the root of the Ha...

2012-03-15 16:02:23 144

原创 Hive 中写Transform

 #!/usr/bin/python#coding:utf8import sys   for line in sys.stdin:      line = line.strip('\n')      arr = line.split('\t')      arr[1] = arr[1].replace("sutao","biansutao").replace("bi...

2012-03-09 18:05:58 264

原创 Hadoop Hive 中的排序 Order by ,Sort by ,Distribute by, Cluster By,

Hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法1. order by set hive.mapred.mode=nonstrict; (default value / 默认值)set hive.mapred.mode=strict; order by 和数据库中的Order by 功能一致,按照某一项...

2012-03-09 12:43:12 668

原创 Hadoop Hive 复合数据结构Array,Struct,Maps

在Hive 中如何使用符合数据结构  maps,array,structs 1. Array的使用 创建数据库表,以array作为数据类型 create table  person(name string,work_locations array<string>)ROW FORMAT DELIMITEDFIELDS TERMINATED BY '\t'...

2012-03-07 16:43:50 449

原创 Hadoop RPC 机制和流程和实现

 什么是RPC      RPC(Remote Procedure Call) 远程过程调用,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术。RPC假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。RPC使得开发包括网络分布式程序在内的应用程序更加容易 Hadoop 中的RPC RPC 分为 Server & Cli...

2012-03-01 18:40:17 110

原创 Hadoop 安装配置

主要安装流程和注意事项  红色两天要特别注意 1. 安装JDK,JRE  (jdk-7u3-linux-x64.tar.gz) 64位操作系统2. 设置环境变量JAVA_HOME and PATH (/etc/profile) 对所有用户都生效 JAVA_HOME=/usr/local/jdk1.7.0_03export JAVA_HOME PAT...

2012-03-01 16:27:22 97

原创 Hadoop 各参数优化

   <property>                        <name>mapred.tasktracker.map.tasks.maximum</name>                        <value>4</value></property> // 单机Map端最大可执行的M...

2012-03-01 11:18:39 126

原创 MapReduce 执行过程分析

 问题: 一个或多个文件是怎么样经历Map / Reduce 的执行而得出结果的呢 ?   MapReduce 执行流程图     

2012-03-01 11:12:26 153

原创 Hadoop 分区函数Partitioner

分区函数MapReduce的使用者通常会指定Reduce任务和Reduce任务输出文件的数量(R)。我们在中间key上使用分区函数来对数据进行分区,之后再输入到后续任务执行进程。一个缺省的分区函数是使用hash方法(比如,hash(key) mod R)进行分区。hash方法能产生非常平衡的分区。然而,有的时候,其它的一些分区函数对key值进行的分区将非常有用。比如,输出的key值...

2012-03-01 10:45:17 292

原创 SSH 无密访问

  如果要从一台服务器(ServerA)SSH到另一个服务器(ServerB),并且不需要每次输入(ServerB机器上的)密码 1.在ServerA执行# ssh-keygen -t rsa (一路回车)会生成  id_rsa (私钥)id_rsa.pub (公钥)两个文件2.将公钥(id_rsa.pub)内容拷贝到 ServerB 主...

2012-02-27 17:02:10 148

原创 jconsole远程监控Java进程

JDK中的工具jconsole可以很好地监控Java进程及其运行环境的情况。这里着重讲讲远程监控。1、远程Java程序运行参数中增加    -Dcom.sun.management.jmxremote    -Dcom.sun.management.jmxremote.port=8888 (一个没有占用的端口)    -Dcom.sun.management.jmxremote.ss...

2012-02-24 14:56:20 360

原创 Hadoop: The Definitive Guide, 3rd Edition (Early Release)

Hadoop: The Definitive Guide, 3rd Edition (Early Release)Book DescriptionWith this digital Early Release edition of Hadoop: The Definitive Guide, you get the entire book bundle in its earl...

2012-02-24 10:48:56 151

原创 Zeus:是恶意程序工具包

from:http://wiki.huihoo.com/wiki/Zeus Zeus:是恶意程序工具包,是臭名昭著但名声卓著的黑客工具包。安全公司CSIS的研究人员从论坛上下载了一份拷贝,证实是Zeus的完整源代码。Zeus可用于制作木马,创建僵尸网络。源码下载:http://krash.in/real2/zeus.rar (解压密码:zeus)// 因为本身是木马,所...

2012-02-24 10:39:29 940

原创 Hbase 介绍

http://www.slideshare.net/BlueDavy/hbase-7532180http://www.searchtb.com/2011/01/understanding-hbase.htmlhttp://www.tbdata.org/archives/1509

2012-02-23 15:44:52 91

原创 MapReduce 的最简单解释

Map 是什么We want to count all the books in the library. You count up shelf #1, I count up shelf #2. That’s map. The more people we get, the faster it goes.我们要数图书馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们人越多...

2012-02-23 14:45:55 175

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除