- 博客(23)
- 收藏
- 关注
Hadoop 自动安装脚本
Email:biansutao[@]gmail[DOT]com还不能实现完全自动安装,只能算半自动的。进行交互主要障碍有两点:1. ssh-keygen的时候需要点击回车。2. passwd 需要设置密码 如果谁能解决以上两点,欢迎email给我。另外:需要JDK和Hadoop压缩包第一步: 设置Root用户的SSH 无密码访问 为了之后修改Hosts文件,配置环境变量,...
2012-05-08 16:57:39
187
原创 HDFS 中的其他操作
1. 创建目录 public static void main(String[] args) throws IOException{ String hdfsDest = "hdfs://192.168.1.150:9000/tmp/123/321"; // HDFS中存储的文件名 Configuration conf = new Configuration(); ...
2012-04-13 14:47:20
126
原创 HDFS 中写入数据
import java.io.BufferedInputStream;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import java.net.URI; import org....
2012-04-13 14:43:04
182
原创 HDFS 中读取数据的方法
方法之一: 通过URL import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;import java.net.MalformedURLException;import java.net....
2012-04-13 13:53:57
249
原创 Hadoop 任务调度
mapred-site.xml 文件 <property> <name>mapred.jobtracker.taskScheduler</name> <value>org.apache.hadoop....
2012-03-30 14:52:27
128
原创 Hadoop 运行硬件的选择
Hadoop权威指南上推荐的硬件配置: CPU:2个四核的 intel Xeon 2.0GHZ Memory: 8GB ECC RAM Disk: 4 TB SATA 硬盘 Network:千兆以太网 最少3台 DataNode 节点否则Replication = 3 不能实现。 ...
2012-03-16 11:16:49
231
原创 如何配置Hadoop的 Secondary节点 & NameNode节点失效恢复
原创: 第一部分: 如何设置Secondary NameNode节点(单独的) 1. 在masters文件中添加 Secondary节点的主机名。 2. 修改hdfs-default.xml 文件 <property> <name>dfs.http.address</name>...
2012-03-16 09:58:25
543
原创 Hadoop SecondaryNameNode 异常
异常信息 2012-03-15 16:52:01,150 WARN org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode: Checkpoint Period :3600 secs (60 min)2012-03-15 16:52:01,151 WARN org.apache.hadoop.hdfs.server.n...
2012-03-15 17:21:15
176
原创 Warning: $HADOOP_HOME is deprecated. 关闭
添加 export HADOOP_HOME_WARN_SUPPRESS=TRUE 到 hadoop-env.sh 中 注意要添加到集群中每一个节点中。 版本:hadoop 0.20.205 原因: Hadoop 在bin/hadoop-config.sh 中对HADOOP_HOME 进行了判断 判断发生的地方:# the root of the Ha...
2012-03-15 16:02:23
144
原创 Hive 中写Transform
#!/usr/bin/python#coding:utf8import sys for line in sys.stdin: line = line.strip('\n') arr = line.split('\t') arr[1] = arr[1].replace("sutao","biansutao").replace("bi...
2012-03-09 18:05:58
264
原创 Hadoop Hive 中的排序 Order by ,Sort by ,Distribute by, Cluster By,
Hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法1. order by set hive.mapred.mode=nonstrict; (default value / 默认值)set hive.mapred.mode=strict; order by 和数据库中的Order by 功能一致,按照某一项...
2012-03-09 12:43:12
668
原创 Hadoop Hive 复合数据结构Array,Struct,Maps
在Hive 中如何使用符合数据结构 maps,array,structs 1. Array的使用 创建数据库表,以array作为数据类型 create table person(name string,work_locations array<string>)ROW FORMAT DELIMITEDFIELDS TERMINATED BY '\t'...
2012-03-07 16:43:50
449
原创 Hadoop RPC 机制和流程和实现
什么是RPC RPC(Remote Procedure Call) 远程过程调用,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术。RPC假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。RPC使得开发包括网络分布式程序在内的应用程序更加容易 Hadoop 中的RPC RPC 分为 Server & Cli...
2012-03-01 18:40:17
110
原创 Hadoop 安装配置
主要安装流程和注意事项 红色两天要特别注意 1. 安装JDK,JRE (jdk-7u3-linux-x64.tar.gz) 64位操作系统2. 设置环境变量JAVA_HOME and PATH (/etc/profile) 对所有用户都生效 JAVA_HOME=/usr/local/jdk1.7.0_03export JAVA_HOME PAT...
2012-03-01 16:27:22
97
原创 Hadoop 各参数优化
<property> <name>mapred.tasktracker.map.tasks.maximum</name> <value>4</value></property> // 单机Map端最大可执行的M...
2012-03-01 11:18:39
126
原创 MapReduce 执行过程分析
问题: 一个或多个文件是怎么样经历Map / Reduce 的执行而得出结果的呢 ? MapReduce 执行流程图
2012-03-01 11:12:26
153
原创 Hadoop 分区函数Partitioner
分区函数MapReduce的使用者通常会指定Reduce任务和Reduce任务输出文件的数量(R)。我们在中间key上使用分区函数来对数据进行分区,之后再输入到后续任务执行进程。一个缺省的分区函数是使用hash方法(比如,hash(key) mod R)进行分区。hash方法能产生非常平衡的分区。然而,有的时候,其它的一些分区函数对key值进行的分区将非常有用。比如,输出的key值...
2012-03-01 10:45:17
292
原创 SSH 无密访问
如果要从一台服务器(ServerA)SSH到另一个服务器(ServerB),并且不需要每次输入(ServerB机器上的)密码 1.在ServerA执行# ssh-keygen -t rsa (一路回车)会生成 id_rsa (私钥)id_rsa.pub (公钥)两个文件2.将公钥(id_rsa.pub)内容拷贝到 ServerB 主...
2012-02-27 17:02:10
148
原创 jconsole远程监控Java进程
JDK中的工具jconsole可以很好地监控Java进程及其运行环境的情况。这里着重讲讲远程监控。1、远程Java程序运行参数中增加 -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=8888 (一个没有占用的端口) -Dcom.sun.management.jmxremote.ss...
2012-02-24 14:56:20
360
原创 Hadoop: The Definitive Guide, 3rd Edition (Early Release)
Hadoop: The Definitive Guide, 3rd Edition (Early Release)Book DescriptionWith this digital Early Release edition of Hadoop: The Definitive Guide, you get the entire book bundle in its earl...
2012-02-24 10:48:56
151
原创 Zeus:是恶意程序工具包
from:http://wiki.huihoo.com/wiki/Zeus Zeus:是恶意程序工具包,是臭名昭著但名声卓著的黑客工具包。安全公司CSIS的研究人员从论坛上下载了一份拷贝,证实是Zeus的完整源代码。Zeus可用于制作木马,创建僵尸网络。源码下载:http://krash.in/real2/zeus.rar (解压密码:zeus)// 因为本身是木马,所...
2012-02-24 10:39:29
940
原创 Hbase 介绍
http://www.slideshare.net/BlueDavy/hbase-7532180http://www.searchtb.com/2011/01/understanding-hbase.htmlhttp://www.tbdata.org/archives/1509
2012-02-23 15:44:52
91
原创 MapReduce 的最简单解释
Map 是什么We want to count all the books in the library. You count up shelf #1, I count up shelf #2. That’s map. The more people we get, the faster it goes.我们要数图书馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们人越多...
2012-02-23 14:45:55
175
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人