
Hadoop
文章平均质量分 72
林之风hhsk
java攻城狮
展开
-
Hadoop-HDFS的特点
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl原创 2016-05-14 17:02:43 · 5968 阅读 · 0 评论 -
yarn运行mapreduce的工作机制
yarn的基本概念yarn并不清楚用户提交的程序的运行机制yarn只提供运算资源的调度(用户程序向yarn申请资源,yarn就负责分配资源)yarn中的主管角色叫ResourceManageryarn中具体提供运算资源的角色叫NodeManager这样一来,yarn其实就与运行的用户程序完全解耦,就意味着yarn上可以运行各种类型的分布式运算程序(mapreduce只是其中的一种),比如m原创 2017-09-09 18:56:13 · 1060 阅读 · 0 评论 -
storm 任务提交过程
storm提交topology任务大概分为5个角色,一是:client,二是nimbus,三是zookeeper,四是supervisor,五是worker下面介绍每个角色在任务提交的时候所做的一些操作:1.client:提交topology2.nimbus:这个角色所做的操作相对较多,具体如下: a.会把提交的jar包放到nimbus所在服务器的nimbus/inbox目录下原创 2017-09-19 18:08:42 · 2608 阅读 · 2 评论 -
maptask 个数(并行度)决定机制
一个job的map阶段并行度由客户端在提交job时决定客户端对map阶段并行度的规划基本逻辑为: 一、将待处理的文件进行逻辑切片(根据处理数据文件的大小,划分多个split),然后每一个split分配一个maptask并行处理实例*二、具体切片规划是由FileInputFormat实现类的getSplits()方法完成 切分规则如下: 1.简单地按照文件的内容长度进行切片原创 2017-09-06 18:00:09 · 2969 阅读 · 0 评论 -
hdfs 上传文件(写数据)流程
hdfs 上传文件(写数据)流程需求:向hdfs上传 300M文件text.txt 到 /mydir 目录 注意:客户端会把300M文件切分为128M(blk_1)、128M(blk_2)、54M(blk_3)三块,切块大小需要根据hadoop的配置来,2.x以上默认是128M1、向namenode请求上传文件 text.txt 到 hdfs的/mydir目录下2、namenode返回允许上传原创 2017-09-01 09:27:28 · 1733 阅读 · 0 评论 -
看图说mapreduce的shuffle机制
看图说shuffle过程: mapreduce中,map阶段处理的数据如何传递给reduce阶段,是mapreduce框架中最关键的一个流程,这个流程就叫shuffle 1、shuffle是MR处理流程中的一个过程,它的每一个处理步骤是分散在各个map task和reduce task节点上完成的,整体来看,分为3个操作:partition分区(shuffle必要操作)sort排序,根据原创 2017-09-09 11:38:07 · 395 阅读 · 0 评论 -
hdfs 下载文件(读数据)流程
需求:向hdfs下载文件text.txt1、 向namenode请求要下载的text.txt,namenode返回文件所在的datanode块位置信息2、client挑选一台datanode(就近原则,然后再随机)服务器,请求建立socket流 3、datanode开始读取数据(从磁盘读取数据至流里面,以packet为单位来做校验)4、客户端以packet为单位接收,先缓存在本地,然后写入目原创 2017-09-04 09:46:05 · 785 阅读 · 0 评论 -
ssh 免密登录配置后还是无效
ssh 免密登录配置后还是无效配置ssh登录[hadoop@bigdata1~]$ mkdir .ssh[hadoop@bigdata1~]$ ssh-keygen -t rsa //执行命令一路回车,生成秘钥[hadoop@bigdata1~]$cd .ssh [hadoop@bigdata1.ssh]$ lsid_rsa id_rsa.pub[hadoop@bigdata1.原创 2017-07-31 11:04:17 · 8143 阅读 · 7 评论 -
Linux 免密登录的实现原理和验证方式
Linux 免密登录的实现原理和验证方式如题:有bigdata1免密登录到bigdata2需要在bigdata1上生成密钥和公钥把bigdata1的公钥复制到bigdata2的授权列表中 _ 具体验证如红色线步骤 原理如图原创 2017-02-14 16:23:35 · 643 阅读 · 0 评论 -
secondary namenode元数据同步
secondary namenode(sn)同步namenode(nn)元数据的过程sn向nn请求是否需要同步元数据信息如果需要同步,则nn会滚动当前正在写的edits.inprogressingsn把所有的edits文件和fsimage文件下载到sn(只有第一次同步会下载nn的fsimage文件,后面同步只需要下载edits文件即可)在sn把edits文件和fsimage文件加载到内存合并原创 2017-09-12 14:01:34 · 1334 阅读 · 0 评论