林之风hhsk-优快云博客

原创 storm 任务提交过程

storm提交topology任务大概分为5个角色，一是：client，二是nimbus，三是zookeeper，四是supervisor，五是worker下面介绍每个角色在任务提交的时候所做的一些操作：1.client：提交topology2.nimbus：这个角色所做的操作相对较多，具体如下： a.会把提交的jar包放到nimbus所在服务器的nimbus/inbox目录下

2017-09-19 18:08:42 2647 1

原创 storm Worker之间的通信

要理解worker之间的通信首先需要知道有哪些角色或组件参与其中，storm worker之间的通信包括以下角色：注意：tuple是消息传输的单元 1. Receiver Thread:接收线程，负责从其他worker接收tuple消息并根据taskid发送到相应的executer 2. Receiver Queue(incoming queue): 接收队列，所有从接收线程收到的

2017-09-19 11:38:42 1028

原创 secondary namenode元数据同步

secondary namenode（sn）同步namenode(nn)元数据的过程 sn向nn请求是否需要同步元数据信息如果需要同步，则nn会滚动当前正在写的edits.inprogressing sn把所有的edits文件和fsimage文件下载到sn（只有第一次同步会下载nn的fsimage文件，后面同步只需要下载edits文件即可）在sn把edits文件和fsimage文件加载到内存合并

2017-09-12 14:01:34 1381

yarn的基本概念 yarn并不清楚用户提交的程序的运行机制 yarn只提供运算资源的调度（用户程序向yarn申请资源，yarn就负责分配资源） yarn中的主管角色叫ResourceManager yarn中具体提供运算资源的角色叫NodeManager 这样一来，yarn其实就与运行的用户程序完全解耦，就意味着yarn上可以运行各种类型的分布式运算程序（mapreduce只是其中的一种），比如m

2017-09-09 18:56:13 1116

原创看图说mapreduce的shuffle机制

看图说shuffle过程：　　mapreduce中，map阶段处理的数据如何传递给reduce阶段，是mapreduce框架中最关键的一个流程，这个流程就叫shuffle 1、shuffle是MR处理流程中的一个过程，它的每一个处理步骤是分散在各个map task和reduce task节点上完成的，整体来看，分为3个操作： partition分区（shuffle必要操作） sort排序，根据

2017-09-09 11:38:07 429

原创 maptask 个数（并行度）决定机制

一个job的map阶段并行度由客户端在提交job时决定客户端对map阶段并行度的规划基本逻辑为：一、将待处理的文件进行逻辑切片（根据处理数据文件的大小，划分多个split），然后每一个split分配一个maptask并行处理实例* 二、具体切片规划是由FileInputFormat实现类的getSplits()方法完成切分规则如下： 1.简单地按照文件的内容长度进行切片

2017-09-06 18:00:09 3014

原创 hdfs 下载文件（读数据）流程

需求：向hdfs下载文件text.txt 1、向namenode请求要下载的text.txt，namenode返回文件所在的datanode块位置信息 2、client挑选一台datanode（就近原则，然后再随机）服务器，请求建立socket流 3、datanode开始读取数据（从磁盘读取数据至流里面，以packet为单位来做校验） 4、客户端以packet为单位接收，先缓存在本地，然后写入目

2017-09-04 09:46:05 843

原创 hdfs 上传文件（写数据）流程

hdfs 上传文件（写数据）流程需求：向hdfs上传 300M文件text.txt 到 /mydir 目录注意：客户端会把300M文件切分为128M（blk_1）、128M(blk_2）、54M（blk_3）三块，切块大小需要根据hadoop的配置来，2.x以上默认是128M 1、向namenode请求上传文件 text.txt 到 hdfs的/mydir目录下 2、namenode返回允许上传

2017-09-01 09:27:28 1806

原创 ssh 免密登录配置后还是无效

ssh 免密登录配置后还是无效配置ssh登录[hadoop@bigdata1~]$ mkdir .ssh [hadoop@bigdata1~]$ ssh-keygen -t rsa //执行命令一路回车，生成秘钥 [hadoop@bigdata1~]$cd .ssh [hadoop@bigdata1.ssh]$ ls id_rsa id_rsa.pub [hadoop@bigdata1.

2017-07-31 11:04:17 8247 7

原创 Linux 免密登录的实现原理和验证方式

Linux 免密登录的实现原理和验证方式如题：有bigdata1免密登录到bigdata2 需要在bigdata1上生成密钥和公钥把bigdata1的公钥复制到bigdata2的授权列表中 _ 具体验证如红色线步骤原理如图

2017-02-14 16:23:35 673

原创 Hadoop-HDFS的特点

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦： Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传 LaTex数学公式 UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2016-05-14 17:02:43 6037

dom4j，javaee，jquery，JS，spring，hibernate，h5中文API

dom4j，javaee，jquery，JS，spring，hibernate，h5中文API，终于整出来了。。很全很好用哦。。全中文哦。。很详细。。

2015-01-14

mapreduce wc单词计数自定义分区自定义排序实现

实现mr的wordcount功能和自定义分区的功能、自定义排序功能；com.ellis.mr1为类似wc功能，com.ellis.mr2为自定义分区功能，com.ellis.mr3为自定义排序功能

2017-09-07

hadoop2.6 eclipse插件 64win插件 myeclipse 插件

hadoop2.6 eclipse插件 myeclipse 插件，亲测可用，64位windows插件

2017-08-29

easyui官方中文文档

easyui官方中文文档，比普通的更全面，可以复制列子。

2015-01-22

mysql5.1.17 jar包

mysql 5.1.7 jar 包,java连接数据库jar包，是5.1.17版本的。。

2014-11-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

wu_cai的专栏

原创 storm 任务提交过程

原创 storm Worker之间的通信

原创 secondary namenode元数据同步

原创 yarn运行mapreduce的工作机制

原创看图说mapreduce的shuffle机制

原创 maptask 个数（并行度）决定机制

原创 hdfs 下载文件（读数据）流程

原创 hdfs 上传文件（写数据）流程

原创 ssh 免密登录配置后还是无效

原创 Linux 免密登录的实现原理和验证方式

原创 Hadoop-HDFS的特点

dom4j，javaee，jquery，JS，spring，hibernate，h5中文API

mapreduce wc单词计数自定义分区自定义排序实现

hadoop2.6 eclipse插件 64win插件 myeclipse 插件

easyui官方中文文档

mysql5.1.17 jar包

空空如也

dom4j，javaee，jquery，JS，spring，hibernate，h5中文API

mapreduce wc单词计数 自定义分区 自定义排序实现

hadoop2.6 eclipse插件 64win插件 myeclipse 插件

easyui官方中文文档

mysql5.1.17 jar包

空空如也

mapreduce wc单词计数自定义分区自定义排序实现