
---- Hadoop
文章平均质量分 89
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。
云 祁
Focus BigData,专注于大数据技术领域的知识分享。
展开
-
真的了解 HDFS 的 SecondaryNameNode 是干什么的?
前言HDFS SecondaryNameNode是干什么的?这是道经典的基础面试题,笔者问过面试者很多次(当然也被面试官问过很多次)。从印象看,大约有一半的被面试者无法正确作答,给出的答案甚至有“不就是NameNode的热备嘛 ”。本文来简单聊聊相关的知识,为节省篇幅,将SecondaryNameNode简称SNN,NameNode简称NN。NN与fsimage、edit log文件NN负责管理HDFS中所有的元数据,包括但不限于文件/目录结构、文件权限、块ID/大小/数量、副本策略等等。客户端原创 2021-04-15 11:11:13 · 589 阅读 · 2 评论 -
CDH大数据集群Linux系统参数调优
系统版本为CentOS 7。vm.swappiness设置方法:echo 1 > /proc/sys/vm/swappiness,或sysctl -w vm.swappiness=1,或编辑/etc/sysctl.conf文件,加入vm.swappiness=1swap即交换空间,作用类似于Windows中的虚拟内存,也就是当物理内存不足时,将硬盘上的swap分区当做内存来使用。但是,由于磁盘的读写速率与内存相比差太多,一旦发生大量交换,系统延迟就会增加,甚至会造成服务长期不可用,这对转载 2020-11-10 16:03:25 · 642 阅读 · 0 评论 -
【Hadoop】(一)分布式文件系统 HDFS
文章目录一、Hadoop简介二、Hadoop的核心三、Hadoop的特点四、HDFS的架构存储模型==NameNode(NN)==1.简介2.NameNode的工作特点3.NameNode主要功能4.NameNode保存metadata信息包括5.NameNode持久化6.==DataNode(DN)====SecondaryNameNode(SNN)==1.SNN执行合并时机2.SNN执行流程图...原创 2019-12-07 15:32:15 · 2949 阅读 · 0 评论 -
【Hadoop】(二)Hadoop 分布式安装一(HDFS)
文章目录一、部署Java二、设置无密登录三、修改配置文件一、部署Java创建三台虚拟机部署Java解压配置环境变量具体安装步骤参考:手把手教你在Linux环境下安装JDK 1.8.0二、设置无密登录SSH基本原理SSH之所以能够保证安全,原因在于它采用了公钥加密。过程如下:(1)远程主机收到用户的登录请求,把自己的公钥发给用户。(2)用户使用这个公钥,将登录密码加密后,...原创 2019-12-08 13:14:20 · 1995 阅读 · 4 评论 -
【Hadoop】(三)资源管理器 YARN 和分布式计算框架 MapReduce
Hadoop MapReduce / MR 是一个软件计算框架,可以轻松地编写应用程序,以可靠,容错的方式并行处理大型硬件集群(数千个节点)上的大量数据(多达TB数据集) 。原创 2019-12-10 18:34:19 · 2355 阅读 · 0 评论 -
【Hadoop】(四)Hadoop 序列化 及 MapReduce 序列化案例实操
文章目录1 序列化概述2 自定义bean对象实现序列化接口(Writable)3 序列化案例实操1 序列化概述2 自定义bean对象实现序列化接口(Writable)在企业开发中往往常用的基本序列化类型不能满足所有需求,比如在Hadoop框架内部传递一个bean对象,那么该对象就需要实现序列化接口。具体实现bean对象序列化步骤如下7步。(1)必须实现Writable接口(2)反序列化...原创 2019-12-11 10:47:41 · 1633 阅读 · 0 评论 -
【Hadoop】(五)MapReduce 如何解决数据倾斜问题
文章目录一、什么是数据倾斜以及数据倾斜是怎么产生的?二、为什么说数据倾斜与业务逻辑和数据量有关?一、什么是数据倾斜以及数据倾斜是怎么产生的?简单来说数据倾斜就是数据的key 的分化严重不均,造成一部分数据很多,一部分数据很少的局面。举个 word count 的入门例子,它的map 阶段就是形成 (“aaa”,1)的形式,然后在reduce 阶段进行 value 相加,得出 “aaa” 出现...原创 2019-12-12 18:52:03 · 1757 阅读 · 0 评论 -
【Hadoop】(六)详解 HDFS 的数据流 (面试重点)
前言:在《Hadoop系列》的第一篇博文里,就已经提到了【hadoop】(一)分布式文件系统 HDFS,但作为面试中经常遇到的数据流的问题,特地拎出来专门写一篇文章,详细解读 HDFS 数据流的知识点,帮助小伙伴们跳出面试中的那些大坑。原创 2019-12-12 19:47:51 · 1834 阅读 · 0 评论 -
【Hadoop】(七)Yarn 详解
Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序。原创 2019-12-17 23:30:17 · 1859 阅读 · 0 评论