
Hadoop
SZU_Hadooper
数据挖掘工程师
展开
-
Hadoop入口FileSystem HDFS操作 本地文件合并到HDFS和HDFS文件合并
Hadoop 文件API的起点是FileSystem类。这是一个与文件系统交互的抽象类。存在不同的具体实现子类来处理HDFS和本地文件系统。 HDFS接口的FileSystem对象: Configuration conf = new Configuration(); FileSystem hdfs = FileSystem.get(conf); package com.HDFSMe原创 2016-11-24 22:29:54 · 3890 阅读 · 1 评论 -
hadoop 标准序列化过程
一般的value序列化:(使用构造方法,重写write和readFields和tostring) 标准的序列化反序列化例子(与上面的区别是多了一个compareTo方法(检查key是否相同以及排序) 使用set方法代替构造方法(可以直接赋值而不用去new一个对象去赋值了)) import java.io.DataInput; import java.io.DataOutput; impo原创 2017-06-21 22:43:10 · 424 阅读 · 0 评论 -
mapreduce俩个依赖关系的JOB实现
public static void main(String[] args) throws IOException{ Configuration conf1 = new Configuration(); //第一个job的配置 Job job1 = new Job(conf1); job1.setJarByClass(LiFangMinHash.class); j原创 2017-02-13 20:36:32 · 508 阅读 · 0 评论 -
mapreduce标准过程
Databean封装的value看序列化和反序列那一篇。 Databean的缺点: 1.继承的是writable没有compareTo方法只能进行value的封装而不能进行key的封装 和排序。 2.使用的是构造方法来进行一次性赋值,需要不停的new对象来赋值。 Mapreduce的缺点: 1.Map中context.write(new Text(tel), bean);需要每写一条n原创 2017-02-12 21:21:21 · 357 阅读 · 0 评论 -
hadoop磁盘写入流程
map:将输入写入到本地磁盘 reduce:写入到HDFS 因为map产生的是中间结果,中间结果是由reduce任务处理后才是最终结果,而且中间结果一旦使用完后是可以进行删除的,不适合写入到HDFS原创 2017-02-12 21:18:27 · 613 阅读 · 0 评论 -
hadoop分片大小
Hadoop的最佳分片大小应该和HDFS的块大小相同:如果跨越俩个数据块,那么对于任何一个HDFS节点,基本都不会同时存储在俩个数据块,难免会进行跨网络传输。于在本地数据运行慢许多。原创 2017-02-12 21:13:29 · 859 阅读 · 0 评论 -
Aprior 算法
Apriori 算法:(hadoop中实现) 第一步:统计项的频度 (用一个MR统计出来) 假设是一个矩阵 U1 app1 , app3 U2 app1 , app2 , app3 U3 app2 , app3 把矩阵看成一行行的向量 U1app1 , app3> U2app1 , app2 , app3> U3a原创 2017-01-07 21:11:28 · 743 阅读 · 0 评论 -
combiner partitioner
combine是在map端进行的,是在patition之前 partitioner也是在map端进行的原创 2016-11-27 10:43:51 · 411 阅读 · 0 评论 -
Hadoop中Writable和WritableComparable区别
Hadoop的key和value的传递序列化需要涉及两个重要的接口Writable和WritableComparable 1> Writable: public void write(DataOutput out){} public void readFields(DataInput in){} 也就是读数据和写数据的方式 2> WritableCompara转载 2017-01-13 13:03:38 · 560 阅读 · 0 评论 -
HADOOP 集群搭建
HADOOP 集群搭建标签(空格分隔): 集群搭建环境: hadoop-2.5.2 zookeeper-3.4.5 hbase-1.1.3 机器4台,机器名node01,node02,node03,node04 步骤: 1.设置免密码登录 2.hadoop配置: core-site.xml<configuration> <property> <name>fs.defaul原创 2017-12-02 00:17:27 · 297 阅读 · 0 评论