hadoop
a331251021
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hadoop编译WORDCOUNT
1,首先先配置好JDK 2,并配置SSH免密码登陆 3,安装HADOOP,这里用的是版本hadoop-1.0.1.tar.gz,可上优快云下载那里找到这个版本。 4,安装伪分布式。 可以把伪分布式的hadoop看做只有一个节点的集群,在这个集群中,这个节点即是master,也是slave;既是NameNode,也是DATANODE;既是jobtracker,也是tasktracker。原创 2013-07-31 20:36:05 · 1120 阅读 · 0 评论 -
hadoop-数据去重
import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.原创 2013-07-31 21:18:52 · 1718 阅读 · 0 评论 -
hadoop实例---多表关联
多表关联和单表关联类似,它也是通过对原始数据进行一定的处理,从其中挖掘出关心的信息。如下 输入的是两个文件,一个代表工厂表,包含工厂名列和地址编号列;另一个代表地址表,包含地址名列和地址编号列。要求从输入数据中找出工厂名和地址名的对应关系,输出工厂名-地址名表 样本如下: factory: factoryname addressed Beijing Red Star 1 Shenzhe原创 2013-08-04 16:20:52 · 1899 阅读 · 0 评论 -
hadoop 用命令行编译URLCat
import java.io.IOException; import java.io.InputStream; import java.net.MalformedURLException; import java.net.URL; import org.apache.hadoop.fs.FsUrlStreamHandlerFactory; import org.apache.hado原创 2013-08-10 14:49:42 · 967 阅读 · 0 评论
分享