
分布式
清剑兔
这个作者很懒,什么都没留下…
展开
-
HADOOP生态圈以及各组成部分的简介
传智大数据day06重点组件:HDFS:分布式文件系统,隐藏集群细节,可以看做一块儿超大硬盘 主:namenode,secondarynamenode 从:datanodeYarn:分布式资源管理系统,用于同一管理集群中的资源(内存等) 主:ResourceManager 从:NodeManagerMAPREDUCE:分布式运算程序开...原创 2018-06-29 15:26:07 · 2431 阅读 · 0 评论 -
RPC
在校期间大家都写过不少程序,比如写个hello world服务类,然后本地调用下,如下所示。这些程序的特点是服务消费方和服务提供方是本地调用关系。而一旦踏入公司尤其是大型互联网公司就会发现,公司的系统都由成千上万大大小小的服务组成,各服务部署在不同的机器上,由不同的团队负责。这时就会遇到两个问题:1)要搭建一个新服务,免不了需要依赖他人的服务,而现在他人的服务都在远端,怎么调用?2)其它团队要使用...转载 2018-06-27 15:39:13 · 195 阅读 · 0 评论 -
mapreduce框架设计思想
1、mapreduce框架设计思想 mapreduce结构 一个完整的mapreduce程序在分布式运行时有三类实例进程: 1、MRAppMaster:负责整个程序的过程调度及状态协调 2、mapTask:负责map阶段的整个数据处理流程 3、ReduceTask:负责reduce阶段的整个数据处理流程运行流程:以wordcount(单词统计)为例 分析: 假如要统计三个文件中每个单词出现的次数 ...原创 2018-07-03 16:44:13 · 1207 阅读 · 0 评论 -
Mapreduce原理全剖析过程
1.mapreduce原理全剖析map+shuffle+reducer wordcount为例 1.mapper开始运行,调用InputFormat组件读取文件逻辑切片(逻辑切片不是block块,切片大小默认和block块大小相同) 2.经过inputformat组件处理后,文件以<k,v>的形式进入我们自定义的mapper逻辑 3.mapper逻辑中输出结果会调用Ou...原创 2018-07-06 16:46:22 · 2583 阅读 · 1 评论