
MapReduce
BigMoM1573
淡泊名利
展开
-
MapReduce> Java代码获取文件名称
获取文件名称在Map中加入以下代码,即可获取读取的文件名称//通过context可以获取这行文本所属的文件名称 FileSplit inputSplit = (FileSplit)context.getInputSplit(); String filename= inputSplit.getPath().getName();代码MoreFileMappe...原创 2019-11-20 20:56:35 · 246 阅读 · 0 评论 -
MapReduce>Reduce端join与Map端Join算法实现
文章目录1、reduce端join算法实现2 map端join算法实现1、reduce端join算法实现1、需求:订单数据表t_order:iddatepidamount100120150710P00012100220150710P00013100220150710P00023商品信息表t_productidpname...原创 2019-11-20 20:37:38 · 134 阅读 · 0 评论 -
MapReduce>Java代码应用Snappy压缩算法
操作流程Snappy算法在本地模式里边没有,所以必须得去集群里跑这个代码首先请看操作记录[root@hadoop01 home]# hadoop fs -mkdir /aaaaa在集群新建一个/aaaaa目录[root@hadoop01 home]# hadoop fs -put a.txt /aaaaa/随便建一个a.txt输入任意内容,然后上传到集群的/aaaaa目录下[ro...原创 2019-11-20 19:57:15 · 218 阅读 · 0 评论 -
MapReduce >集群调优
MTU指跨界点传输时,一次性发送的数据的大小,把它调大,能起到优化效果,但是调大后丢包率会增加,有风险。MTU太大,丢包率高,太小,慢。要找个折中点。集群调优核心思路在网络带宽、磁盘IO是瓶颈的前提下 能不使用io 和网络,就不使用。在必须使用的情况下,能少用IO 网络就少用,所有的能够减少网络开销的、减少IO使用的可选项,都可以作为集群调优的可选项。(软件层面(操作系统----集群 层...原创 2019-11-20 14:56:24 · 137 阅读 · 0 评论 -
MapReduce>分布式计算框架MapReduce(C)
1、MapTask运行机制详解以及Map任务的并行度原创 2019-11-20 14:48:45 · 547 阅读 · 0 评论 -
MapReduce>分布式计算框架MapReduce(B)
文章目录MapReduce的分区与ReduceTask的数量MapReduce的分区与ReduceTask的数量在MapReduce中,通过指定分区,会将同一个分区的数据发送到同一个reduce中,例如为了数据的统计,可以把一批类似的数据发 送到同一个reduce当中去,在同一个reduce中统计相同类型的数据,就可以实现类似数据的分区,统计等直观的说就是相同类型的数据,送到一起去处理,在r...原创 2019-11-16 10:34:27 · 287 阅读 · 0 评论 -
MapReduce>分布式计算框架MapReduce(A)
文章目录分布式并行计算框架MapReduceHadoop为什么比传统技术方案快?理解MapReduce思想MapReduce并行计算Hadoop -MapReduce设计构思MapReduce编程初体验Hadoop组成Hadoop HDFS:一个高可靠、高吞吐量的分布式文件系统,对海量数据的存储。Hadoop MapReduce:一个分布式的资源调度和离线并行计算框架。Hadoop ...原创 2019-11-14 20:13:53 · 1084 阅读 · 0 评论