- 博客(11)
- 资源 (6)
- 收藏
- 关注
原创 storm 任务提交过程
storm提交topology任务大概分为5个角色,一是:client,二是nimbus,三是zookeeper,四是supervisor,五是worker下面介绍每个角色在任务提交的时候所做的一些操作:1.client:提交topology2.nimbus:这个角色所做的操作相对较多,具体如下: a.会把提交的jar包放到nimbus所在服务器的nimbus/inbox目录下
2017-09-19 18:08:42
2607
1
原创 storm Worker之间的通信
要理解worker之间的通信首先需要知道有哪些角色或组件参与其中,storm worker之间的通信包括以下角色: 注意:tuple是消息传输的单元 1. Receiver Thread:接收线程,负责从其他worker接收tuple消息并根据taskid发送到相应的executer 2. Receiver Queue(incoming queue): 接收队列,所有从接收线程收到的
2017-09-19 11:38:42
996
原创 secondary namenode元数据同步
secondary namenode(sn)同步namenode(nn)元数据的过程sn向nn请求是否需要同步元数据信息如果需要同步,则nn会滚动当前正在写的edits.inprogressingsn把所有的edits文件和fsimage文件下载到sn(只有第一次同步会下载nn的fsimage文件,后面同步只需要下载edits文件即可)在sn把edits文件和fsimage文件加载到内存合并
2017-09-12 14:01:34
1332
原创 yarn运行mapreduce的工作机制
yarn的基本概念yarn并不清楚用户提交的程序的运行机制yarn只提供运算资源的调度(用户程序向yarn申请资源,yarn就负责分配资源)yarn中的主管角色叫ResourceManageryarn中具体提供运算资源的角色叫NodeManager这样一来,yarn其实就与运行的用户程序完全解耦,就意味着yarn上可以运行各种类型的分布式运算程序(mapreduce只是其中的一种),比如m
2017-09-09 18:56:13
1057
原创 看图说mapreduce的shuffle机制
看图说shuffle过程: mapreduce中,map阶段处理的数据如何传递给reduce阶段,是mapreduce框架中最关键的一个流程,这个流程就叫shuffle 1、shuffle是MR处理流程中的一个过程,它的每一个处理步骤是分散在各个map task和reduce task节点上完成的,整体来看,分为3个操作:partition分区(shuffle必要操作)sort排序,根据
2017-09-09 11:38:07
393
原创 maptask 个数(并行度)决定机制
一个job的map阶段并行度由客户端在提交job时决定客户端对map阶段并行度的规划基本逻辑为: 一、将待处理的文件进行逻辑切片(根据处理数据文件的大小,划分多个split),然后每一个split分配一个maptask并行处理实例*二、具体切片规划是由FileInputFormat实现类的getSplits()方法完成 切分规则如下: 1.简单地按照文件的内容长度进行切片
2017-09-06 18:00:09
2969
原创 hdfs 下载文件(读数据)流程
需求:向hdfs下载文件text.txt1、 向namenode请求要下载的text.txt,namenode返回文件所在的datanode块位置信息2、client挑选一台datanode(就近原则,然后再随机)服务器,请求建立socket流 3、datanode开始读取数据(从磁盘读取数据至流里面,以packet为单位来做校验)4、客户端以packet为单位接收,先缓存在本地,然后写入目
2017-09-04 09:46:05
785
原创 hdfs 上传文件(写数据)流程
hdfs 上传文件(写数据)流程需求:向hdfs上传 300M文件text.txt 到 /mydir 目录 注意:客户端会把300M文件切分为128M(blk_1)、128M(blk_2)、54M(blk_3)三块,切块大小需要根据hadoop的配置来,2.x以上默认是128M1、向namenode请求上传文件 text.txt 到 hdfs的/mydir目录下2、namenode返回允许上传
2017-09-01 09:27:28
1730
原创 ssh 免密登录配置后还是无效
ssh 免密登录配置后还是无效配置ssh登录[hadoop@bigdata1~]$ mkdir .ssh[hadoop@bigdata1~]$ ssh-keygen -t rsa //执行命令一路回车,生成秘钥[hadoop@bigdata1~]$cd .ssh [hadoop@bigdata1.ssh]$ lsid_rsa id_rsa.pub[hadoop@bigdata1.
2017-07-31 11:04:17
8141
7
原创 Linux 免密登录的实现原理和验证方式
Linux 免密登录的实现原理和验证方式如题:有bigdata1免密登录到bigdata2需要在bigdata1上生成密钥和公钥把bigdata1的公钥复制到bigdata2的授权列表中 _ 具体验证如红色线步骤 原理如图
2017-02-14 16:23:35
642
原创 Hadoop-HDFS的特点
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl
2016-05-14 17:02:43
5967
mapreduce wc单词计数 自定义分区 自定义排序实现
2017-09-07
hadoop2.6 eclipse插件 64win插件 myeclipse 插件
2017-08-29
dom4j,javaee,jquery,JS,spring,hibernate,h5中文API
2015-01-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人