
Hadoop
leoxry
天道酬勤,拼搏一个最好的自己送给未来的自己,每天开开心心敲代码就是一种幸福,不计得失,回归刚开始学习时内心的单纯
展开
-
Linux - 安装Mimimal版本及配置
1 点击 文件,选择 新建虚拟机 2 选择 自定义,点击下一步 3 选择 Workstation 11.x,点击下一步 4 选择 稍后安装操作系统,点击下一步 5 选择 Linux(L) 和 CentOS 6 64位,点击下一步 6 输入虚拟机名称 hadoop01 和选择位置,点击下一步 7 处理器数量 1,点击下一步 8 选择内存,点击下一步 9 使用网络地址转换(NAT)模式...原创 2019-08-08 09:45:28 · 798 阅读 · 0 评论 -
MapReduce - A - 排序 - TreeSet
题目: 求评分(平均值)最高的前10的电影id?(输出:moveid 平均分) 思路: Map中获取数据,键:电影好,值:电影信息类(实现Comparable) Reduce中汇总数据,将某部电影的评分算出来,然后放到TreeSet中 Reducer的cleanup中,输出TreeSet中记录的电影信息 代码: //电影信息类 package Sort02; import org...原创 2019-09-07 20:58:11 · 313 阅读 · 0 评论 -
MapReduce - A - 分组 - Comparator
题目: 求每个通信商的上行、下行、总流量 (输出:通信商 上行 下行 总的) 思路: 通过手机号的前三位区分通信运营商 按照运营商分组后,在每个Reduce里计算各运营商总和即可 代码: //分组比较器 package Comparator02; import org.apache.hadoop.io.WritableComparable; import org.apache...原创 2019-09-07 20:56:22 · 330 阅读 · 0 评论 -
MapReduce - A - 分区 - Partitioner
题目: 求每个通信商的上行、下行、总流量 (输出:通信商 上行 下行 总的) 思路: 通过手机号的前三位区分通信运营商 按照运营商分区后,在每个Reduce里计算各运营商总和即可 代码: //分区比较器 package Partitioner02; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapre...原创 2019-09-07 20:53:33 · 229 阅读 · 0 评论 -
MapReduce - A - 迭代(多次MR)
题目: 对给定的文件进行词频统计,然后按照词频从大到小排序 词频相同时,按照单词的字典序 思路: 通过两个MR进行解决 第一个MR:统计词频 第二个MR:利用Shuffle阶段的排序,实现排序效果 代码: //单词类 package Test02; import org.apache.hadoop.io.WritableComparable; import java.io.Dat...原创 2019-09-07 20:51:21 · 831 阅读 · 0 评论 -
MapReduce - 词频统计
统计一个文本的词频 package Test01; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import or...原创 2019-09-02 19:52:19 · 983 阅读 · 0 评论 -
HDFS - 命令
1 edits文件转为xml文件 hdfs oev XML -i /home/hadoop/data/hadoopdata/name/current/edits_0000000000000000004-0000000000000000016 -o /home/edits.xml 2 安全模式 进入安全模式 hdfs dfsadmin -safemode enter 查看安全模式 hdfs d...原创 2019-08-31 20:33:23 · 196 阅读 · 0 评论 -
HDFS - 写流程、读流程
写流程 (1)客户端向NameNode发起写数据请求 (2)分块写入DataNode节点,DataNode自动完成副本备份 (3)DataNode向NameNode汇报存储完成,NameNode通知客户端 图示如下: 读流程 (1)客户端向NameNode发起读数据请求 (2)NameNode找出距离最近的DataNode节点信息 (3)客户端从DataNode分块下载文件 图示如下: ...原创 2019-08-31 20:27:10 · 181 阅读 · 0 评论 -
Hadoop - 命令
1 查看文件系统 hadoop fs -ls / 2 文件上传 hadoop fs -put test.txt / 3 文件下载 hadoop fs -get /test/input/a/t1.txt /home/hadoop/t2.txt 4 查看内容 hadoop fs -cat /test.txt 5 递归创建目录 hadoop fs -mkdir -p /test/output/...原创 2019-08-31 20:18:11 · 374 阅读 · 0 评论 -
Hadoop - 问题 & 解决
1 HDFS - 数据节点DataNode未启动 原因:运行bin/hdfs namenode -format初始化之后,导致namenode的clusterID和datanode的clusterID不一致 解决方案:找到name和data的current文件夹(找不到可以到根目录使用find / -name current查找所有可能的进而选择name),打开VERSION文件,将name的cl...原创 2019-08-28 00:56:18 · 251 阅读 · 0 评论 -
HDFS - 入门
HDFS简介 1 大数据框架体系 2 基本概念 3 设计目标原创 2019-08-22 16:05:15 · 208 阅读 · 0 评论 -
MapReduce - A - 归约 - Combiner
题目: 使用Conbiner进行词频统计 思路: Combiner在整个Map阶段结束后,进行一次合并,可以理解为提前的一次reduce 代码: //MyCombiner package A_Combiner02; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import o...原创 2019-09-07 21:45:12 · 312 阅读 · 0 评论