
hadoop_java
文章平均质量分 68
晚起的鸟
哈哈哈
展开
-
wordcount详解(借鉴)
1、MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobT原创 2013-12-10 17:14:24 · 1788 阅读 · 0 评论 -
mapreduce代码示例(借鉴)
Hadoop集群(第9期)_MapReduce初级案例1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。原创 2013-12-09 16:37:22 · 2918 阅读 · 0 评论 -
eclipse下执行wordcount报错 java.lang.ClassNotFoundException
我用eclipse执行wordcout,报错如下,网上一般都说是要加job.setJarByClass(WordCount.class);,但我代码里有这句另外,导出jar到linux下就正常了13/06/06 17:16:34 WARN mapred.JobClient: No job jar file set. User classes may not be found. See原创 2013-12-07 10:55:31 · 5352 阅读 · 0 评论 -
eclipse上hdfs的javaapi调用文件或者获取节点信息没有权限
问题原因:客户端(eclipse)的用户,也就使用是api操作hdfs的用户,默认的是windows的用户(可能都是Admiistrator),与集群的超级用户不一致,所以有些操作,权限不足。解决方法:对于0.2版本对于版本稍低的hadoop,可以在eclipse的Map/Reduce Location 内配置用户,其中的Advanced paramenters内有个hadoop.原创 2013-12-04 17:05:23 · 1312 阅读 · 0 评论 -
hdfs-JAVA-API
Hadoop中关于文件操作类基本上全部是在"org.apache.hadoop.fs"包中,这些API能够支持的操作包含:打开文件,读写文件,删除文件等。Hadoop类库中最终面向用户提供的接口类是FileSystem,该类是个抽象类,只能通过来类的get方法得到具体类。get方法存在几个重载版本,常用的是这个: static FileSystem get(Config原创 2013-12-04 16:49:19 · 973 阅读 · 0 评论 -
javaAPI操作hdfs实例代码
1、重读配置文件core-site.xml要利用Java客户端来存取HDFS上的文件,不得不说的是配置文件hadoop-0.20.2/conf/core-site.xml了,最初我就是在这里吃了大亏,所以我死活连不上HDFS,文件无法创建、读取。hadoop.tmp.dir>/home/zhangzk/hadoopA base for other tempora翻译 2013-09-30 16:06:38 · 1970 阅读 · 0 评论