
hadoop
a331251021
这个作者很懒,什么都没留下…
展开
-
hadoop编译WORDCOUNT
1,首先先配置好JDK2,并配置SSH免密码登陆3,安装HADOOP,这里用的是版本hadoop-1.0.1.tar.gz,可上优快云下载那里找到这个版本。4,安装伪分布式。可以把伪分布式的hadoop看做只有一个节点的集群,在这个集群中,这个节点即是master,也是slave;既是NameNode,也是DATANODE;既是jobtracker,也是tasktracker。原创 2013-07-31 20:36:05 · 1081 阅读 · 0 评论 -
hadoop-数据去重
import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.原创 2013-07-31 21:18:52 · 1684 阅读 · 0 评论 -
hadoop实例---多表关联
多表关联和单表关联类似,它也是通过对原始数据进行一定的处理,从其中挖掘出关心的信息。如下输入的是两个文件,一个代表工厂表,包含工厂名列和地址编号列;另一个代表地址表,包含地址名列和地址编号列。要求从输入数据中找出工厂名和地址名的对应关系,输出工厂名-地址名表样本如下:factory:factoryname addressedBeijing Red Star 1Shenzhe原创 2013-08-04 16:20:52 · 1872 阅读 · 0 评论 -
hadoop 用命令行编译URLCat
import java.io.IOException;import java.io.InputStream;import java.net.MalformedURLException;import java.net.URL;import org.apache.hadoop.fs.FsUrlStreamHandlerFactory;import org.apache.hado原创 2013-08-10 14:49:42 · 948 阅读 · 0 评论