hadoop学习
文章平均质量分 76
zmysang
坚持!不忘初心,方能始终!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MapReduce编程模型及hello world实例(u)
MapReduce由Map和Reduce两个阶段组成,用户自己编写map()和reduce()两个函数。举例“hello world”程序:用来统计输入文件中每个单词出现的次数。Map:map (String key, String value) : words = SplitIntTokens(value) ; for each word w in words : Emi原创 2016-03-29 14:20:38 · 2768 阅读 · 0 评论 -
HDFS原理分析(u)
HDFS(Hadoop Distributed File System)Hadoop由两部分组成,HDFS(分布式文件系统)以及MapReduce(分布式计算框架),其中HDFS用于大规模数据的分布式存储,MapReduce构建在文件系统智商,对存储在分布式文件系统中的数据进行分布式计算。 分布式文件系统是一个独立存在的模块,用户可以根据接口来自己构建文件系统,但是一般会默认使用HDFS。HDFS原创 2016-03-30 19:05:18 · 1510 阅读 · 0 评论 -
windows下搭建hadoop工程(一)
一、安装文件准备 1:下载好hadoop-1.0.0.tar.gz, 下载地址是https://archive.apache.org/dist/hadoop/core/hadoop-1.0.0/ 2:解压到D:\hadoop\cygwin\zhangmanyi\目录下。二、启动hadoop 1、修改hadoop配置文件,在conf目录下,修改mapred-site.xml、core-site原创 2016-04-12 09:21:51 · 4692 阅读 · 1 评论 -
在windows下搭建hadoop工程(二)之 WordCount 作业测试
四、WordCount.java测试1、测试准备wordcount.java程序是用来统计词频的,因此这里需要先建好输入文件。/test/input/ 但是发现从eclipse上传到hdfs中的文件大小始终都为0尝试使用hadoop shell的方式来创建文件。 在执行文件上传命令时会抛出异常: File /tmp/wordcount/1.txt could only be replicate原创 2016-04-12 17:08:28 · 5712 阅读 · 0 评论 -
hadoop在windows下的环境搭建
因为在ubuntu server上面不知道怎么启动eclipse啊,因此还是选择在windows上面搭一个吧~一、首先需要使用的软件有: 1、 JDK,推荐版本1.6以上,这里下载版本是1.8.0_77 32位 http://download.oracle.com/otn-pub/java/jdk/8u77-b03/jdk-8u77-windows-i586.exe 2、 Ant,推荐版本原创 2016-03-25 14:42:04 · 1871 阅读 · 0 评论 -
编写MapReduce程序示例——求平均成绩
输入文件:由于不识别中文,所以暂时使用姓名拼音jiangxin 94 wangziwen 78 yangzi 83 wangkai 89 jiangxin 80 wangziwen 84 liutao 90 liutao 82 jiangxin 76 wangkai 77 wangkai 91 yangzi 86 jiangxin 88每一行为一个学原创 2016-05-04 11:08:47 · 3110 阅读 · 0 评论 -
Hadoop实例WordCount程序修改--词频降序
修改wordcount实例,改为: 1、 对词频按降序排列 2、 输出排序为前三,和后三的数据首先是第一项: 对词频排序,主要针对的是最后输出的部分。**分析程序内容:** WordCount.javapackage org.apache.hadoop.examples;import java.io.IOException;import java.util.StringTokenize原创 2016-04-19 16:49:04 · 7797 阅读 · 1 评论 -
编写mapreduce程序实例——数据去重
每一行为一个日期及一个人名字,分为3个文件,其中存在多行重复数据,需要进行去重。输入文件:file1: 2006-6-9 a 2006-6-11 b 2006-6-21 c 2006-6-10 a 2006-6-11 b 2006-6-30 e 2006-6-9 a 2006-6-26 dfile2: 2006-6-9 a 2006-6-11 b 2006-6-9 a 200原创 2016-05-09 11:04:09 · 4920 阅读 · 0 评论
分享