
Hadoop学习笔记
warm-
学而时习之:)
展开
-
HDFS操作
在map阶段获取分区中文件的文件名:InputSplit inputSplit = context.getInputSplit(); //获取分区String fileName = ((FileSplit) inputSplit).getPath().getName(); //获取文件名String fileName = ((FileSplit) inputSpli...原创 2018-11-13 15:02:28 · 142 阅读 · 0 评论 -
MapReduce单元测试不通过
前几天用mrunit进行单元测试,一直报错:java.lang.IncompatibleClassChangeError: Found interface org.apache.hadoop.mapreduce.TaskInputOutputContext, but class was expected在网上查了一下,说这个错误是导入的包有问题,废了老半天劲,原来是mrunit包导入的不对。开...原创 2018-07-26 11:31:01 · 237 阅读 · 0 评论 -
KNN在MR和Spark下实现的IO操作比较
MapReduce中KNN运行过程I/O操作分析:实现流程:KNN在MapReduce中的实现,认为训练集大小远大于测试集大小。所以测试集缓存在内存中。Map任务输入是一个训练集文件的分片(子集),测试集中的每一个样例与训练集分片中的所有样例计算距离,输出<测试样例, (与训练样例的距离和训练样例的类别)>Combiner阶段根据map的输出得到距测试样例最近的K个训练...原创 2018-08-22 13:55:31 · 368 阅读 · 0 评论 -
HBase学习笔记----通过JAVA 最新API操作HBase
首先环境为:HBase的版本2.0.1,Hadoop版本2.7.1, JDK1.8由于HBase目前网上介绍的API好多已经过时, 这里使用了最新的API,演示了如何创建表,插入数据,获取数据, 删除表几个功能。public class HbaseOpreation { /* 旧版API,目前已经deprecated */ @Test pub...原创 2019-05-08 18:33:39 · 351 阅读 · 0 评论 -
HDFS实时上传文件夹中的数据文件
需求:编写一个脚本,监控一个文件夹,当有文件加入将其上传到HDFS。步骤:记录已经上传过的文件获取文件夹下所有数据文件判断是否已经上传,如果没有,上传,并记录python脚本:import osfrom subprocess import callimport argparseparser = argparse.ArgumentParser()parser.add_ar...原创 2019-07-20 23:20:42 · 439 阅读 · 0 评论