
Hadoop
文章平均质量分 89
Hadoop
阿坨
曾迷途才怕追不上满街赶路人
展开
-
MapReduce输出结果保存到MySQL
文章目录代码编写思路代码实现Map类输出数据表的javaBean类Reduce类Job类jar包运行前准备运行jar包代码编写思路以词频统计案例为例,说明如何把MapReduce的输出结果保存到MySQL中。Map任务基本不变,主要把实现聚焦在Reduce的输出上。Reduce任务的输出的key为相应的输出数据表的javaBean类实现,该类需要实现org.apache.hadoop.io.Writable的Writable接口和org.apache.hadoop.mapreduce.lib.db的DB原创 2020-08-31 17:39:53 · 1339 阅读 · 0 评论 -
简述Mapreduce的Shuffle过程
文章目录引子Map端的Shuffle过程分区数据排序数据归并文件Reduce端的Shuffle过程领取数据归并数据和文件引子虽然我们编写Mapreduce程序只需着眼于编写Map端的map函数和Reduce端的reduce函数,但Shuffle过程是Mapreduce工作流程的核心环节,理解Shuffle过程是我们理解Mapreduce工作流程的核心关键。Mapreduce的简要工作流程可看下图从图中我们可以看出Mapreduce的工作流程分为Map、Shuffle、和Reduce,其中Shuff原创 2020-11-18 03:07:01 · 7331 阅读 · 0 评论 -
MapReduce的基于物品的协同过滤算法实现
写在前面关于基于物品的协同过滤算法的算法图解请看这篇blog:推荐系统----基于物品的协同过滤,关于MapReduce的基于物品的协同过滤算法的代码实现请看下面。别看下面代码这么多,其实大部分都是靠复制粘贴搞定的,其算法的代码核心逻辑实现我觉得在于矩阵的转置和矩阵的乘法运算,步骤一涉及到的是矩阵转置,步骤二涉及到的是矩阵乘法运算,步骤三涉及到的是矩阵转置,步骤四涉及到的是矩阵乘法运算。关于Ma...原创 2020-05-02 15:02:05 · 3400 阅读 · 2 评论 -
HDFS读写数据过程解析及编程实现
文章目录HDFS读数据的简要过程HDFS读数据的详细过程HDFS通信协议HDFS常用的Java API编程实现HDFS读数据的简要过程客户端将要读取的文件路径发送给namenode;namenode获取文件的元信息(主要是block的存放位置信息)返回给客户端;客户端根据返回的信息找到相应datanode逐个获取文件的block;客户端对block进行追加合并从而获得整个文件;HD...原创 2020-04-18 14:05:58 · 1714 阅读 · 0 评论 -
在CentOS6.4搭建hadoop集群的实践笔记
小坨的CentOS6.4搭建hadoop集群的实践笔记虽然在一般的学习当中,8必用上集群,hadoop伪分布式配置已经够用,配置过程也很简单Ubuntu上搭建hadoop伪分布式配置请看这里CentOS上搭建hadoop伪分布式配置请看这里但学hadoop不搭个集群说不过去。这里搭个hadoop集群,一边搞一边记录说是集群,实际上只有一个master和一个slave,为了怜惜自己那一点的...原创 2020-03-18 09:58:16 · 1858 阅读 · 0 评论 -
使用Eclipse连接Hadoop集群的实践笔记
本笔记记录如何使Linux上的Eclipse能连接到Hadoop集群,这个配置是让我们开发hdfs和MapReduce程序更方便一点。当然你省略这一步不厌其烦地每次选择zh用 命令行编译打包运行自己的MapReduce程序也没关系,但是这样每一次开发MapReduce程序都很麻烦。麻烦一次方便多次还是十分划算的。下面我们就搞起请确保Linux上已搭建好Hadoop集群(这是废话)搭建Hado...原创 2020-04-11 11:57:24 · 1646 阅读 · 0 评论