
hadoop
文章平均质量分 63
hadoop随笔
尹忠政
奋斗的年纪
展开
-
HDFS源码-写数据流程
HDFS源码-写数据流程hadoop版本:2.7.0文章目录HDFS源码-写数据流程前言一、整体写流程二、使用步骤1.引入库2.读入数据总结前言这里主要分析HDFS的写数据流程,包括客户端、输出流包装类对象、chunk、packet、pipeline、dataqueue、ackqueue等概念内容比较多,慢慢一点点的分析。这里我以copyToLocalFile()方法为例来通过源码整体分析HDFS的写数据流程。一、整体写流程示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据原创 2021-12-09 19:14:47 · 616 阅读 · 0 评论 -
HDFS源码-DataNode启动流程
HDFS源码-DataNode启动流程文章目录HDFS源码-DataNode启动流程前言一、DataNode启动1、相关类2、重点代码二、DN注册流程1、BPServiceActor的创建三、总结前言DataNode是HDFS中主要扮演者数据存储管理的角色,主要辅助Block快的存储和读写,以及上报Block快信息至NameNode节点,同事对NameNode发出的指令做出响应,比如缓存、删除、迁移、复制等。还接收客户端的请求,提供Block的读写请求,同也与其他DataNode进行通信,比如写数据原创 2021-11-25 16:31:20 · 1826 阅读 · 0 评论 -
HDFS-源码NameNode启动(含安全模式)
HDFS-源码NameNode启动(含安全模式)上一篇总结了HDFS的RPC机制,那么本篇主要是来总结NN的启动,启动流程如下忽略细节,抓住重点,那么从上图可以发现NN的启动伴随着如下时间的发生hdfs web服务启动NN文件系统被加载,初始化工作rpcServer 被创建namesystem 被启动rpcServer 启动在namesystem.startCommonServices()被调用的时候会进行安全检查首先就是检查NN目录是否满足系统要求文件夹最小存储空间为100M原创 2021-11-16 00:14:33 · 422 阅读 · 0 评论 -
HDFS-源码深度分析RPC机制
HDFS-源码深度分析RPC机制一个分布式系统最重要的组件之一就是RPC协议,如何构建一套高性能的RPC协议就显得非常重要了,那么来看看HDFS的RPC协议是如何构建的吧。1.原理剖析部分通信流程HDFS的RPC协议的序列化协议分为两种,第一种是Writerable,一种是Protobuf,前者是HDFS是HDFS自定义的,也是默认的序列化协议,要用Protobuf需要将参数进行包装和响应进行解析为接口返回的类型。本篇主要研究Protobuf协议,Writerable其实也是囊括在内的。简要流程原创 2021-11-14 15:28:00 · 1463 阅读 · 0 评论 -
MapReduce实现分词和倒排索引(算法TF-IDF)
MapReduce实现分词和倒排索引(算法TF-IDF)介绍IFDF IF:词频(单词在文档中出现的次数/文档中的总词数) DF:逆向文件频率(log(文档总数/出现该单词的文件数量)),log归一化,避免了一些常用词如 的,了等词的评分 IF/DF能表明单词在索引(文档库)的重要程度输入文件id \t 文本内容3823891101582094 我爱中国3823891201582...原创 2019-06-02 16:25:24 · 1173 阅读 · 0 评论 -
MapReduce源码分析(一)
文章目录MapReduce源码分析提交计算切片读取LineRecordReader总结MapReduce源码分析忙碌中,补充一下之前阅读源码的过程,以及MapReduce如何保证读取文件的逻辑完整性的问题。提交waitForCompletion()=>submit()->submitJobInternal(){ int maps = writeSplits(job, submitJobDir) => writeNewSplits() =>原创 2020-07-08 00:29:03 · 267 阅读 · 0 评论 -
hadoop搭建(centOS 7 hadoop 2.7.2)
#hadoop搭建(centOS 7 hadoop 2.7.2)伪分布式版本修改主机名新增用户 groupadd hadoop useradd hd -g hadoop -p xxxxxxxx SSH cd ~ cd .ssh/ ssh-kengen -t rsa ssh-copy-id 其他机器的id 测试 ...原创 2019-04-09 16:46:50 · 186 阅读 · 0 评论 -
HDFS-ClientProtocol的客户端执行过程详解
HDFS-ClientProtocol的客户端执行过程详解原创 2021-11-05 18:14:07 · 226 阅读 · 0 评论 -
细节图解HDFS-读流程
图解HDFS-读流程说明在open的时候,客户端会去执行步骤2去获取起始位置的LocatedBlocks,getLocatedBlocks(src, start, dfsClientConf.prefetchSize),第三个参数是表示数据长度,默认是10 * defaultBlockSize,既1280M。在大多数情况下,无需请求步骤5,每一次定位block时只需要走第一次缓存的LocatedBlocks即可。当读取的offset大于缓存的LocatedBlocks的fileLength的时候,这原创 2021-11-03 23:07:11 · 1364 阅读 · 0 评论 -
源码解析-HDFS读流程
原创 2021-11-02 01:42:57 · 175 阅读 · 0 评论 -
OOZIE-任务假死分析与解决
OOZIE-任务假死分析与解决问题描述提交的job,所有的workflow都出现了假死的状态,查看日志,全是oozie输出的heart beat 心跳日志。yarn fair 调度器资源也被打满分析问题首先网上查了下资料,这里就不赘言了,全是说资源不足,那么在我看来,我这边的集群资源,container内存是给够了的,所以就不考虑了。仔细观察,oozie一个action是分为两部分的,launcher和action,oozie所有的action都会提交一个mr作业,在作业中提交相应的act原创 2021-10-28 00:32:32 · 373 阅读 · 0 评论 -
源码解析-HDFS副本放置策略
源码解析-HDFS副本放置策略重点类DistributedFileSystem create()DataStreamerBlockManager chooseTarget4NewBlock()BlockPlacementPolicyDefault chooseTarget()BlockPlacementPolicyDefault chooseTargetInOrder()hadoop-version:3.4.0-SNAPSHOT剖析点通过FileSystem.newInstance(原创 2021-10-27 01:33:22 · 475 阅读 · 2 评论 -
一篇文章了解HDFS名称空间NameSpace
一篇文章了解HDFS名称空间NameSpace文章目录一篇文章了解HDFS名称空间NameSpaceNamespace(名称空间)文件结构文件系统元数据(第一行)imgVersionnumFilesgenStamp目录元数据pathreplicasmtimeatimeblocksiznsQuotadsQuotausernamegroupperm文件元数据(包含目录元数据)blockidnumBytesgenStampFSImageEditsBlocksMap数据结构原理LightWeightGSet构造方原创 2021-10-24 16:08:58 · 6991 阅读 · 0 评论