
Hadoop
文章平均质量分 80
学习Hadoop时的知识与技术分享
勤奋的ls丶
这个作者很懒,什么都没留下…
展开
-
Hadoop之HA高可用
目录一、什么是HA高可用二、集群搭建三、HDFS-HA手动模式 四、HDFS-HA自动模式五、YARN-HA配置一、什么是HA高可用(1)所谓HA(High Availablity),即高可用(7*24小时不中断服务)。(2)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。(3)NameNode主要在以下两个方面影响HDFS集群NameNode机器发生意外,如宕机,集群将无法使用,直到管理员重启 N...原创 2021-12-20 21:25:36 · 394 阅读 · 0 评论 -
Hadoop之纠删码
纠删码是hadoop3.x新加入的功能,之前的HDFS都是采用副本方式容错,默认情况下,一个文件有3个副本,可以容忍任意2个副本(datanode)不可用,这样提高了数据的可用性,但也带来了2倍的冗余开销。例如3TB的空间,只能存储1TB的有效数据。而纠删码则可以在同等可用性的情况下,节省更多的空间,以RS-6-3-1024K这种纠删码策略为例子,6份原始数据,编码后生成3份校验数据,一共9份数据,只要最终有6份数据存在,就可以得到原始数据,它可以容忍任意3份数据不可用。1.查看当前支持...原创 2021-12-17 20:23:43 · 903 阅读 · 0 评论 -
Hadoop新特性
Hadoop2.x新特性1.集群间数据拷贝1)scp实现两个远程主机之间的文件复制scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt // 推 pushscp -r root@hadoop103:/user/atguigu/hello.txt hello.txt // 拉 pullscp -r root@hadoop103:/user/atguigu/hell...原创 2021-12-17 20:11:47 · 85 阅读 · 0 评论 -
Hadoop中优化问题汇总
目录一、问题分析二、MapReduce的优化方法1.数据输入2.Map阶段3.Reduce阶段4.I/O传输5.数据倾斜三、常用的调优参数1.资源相关参数2.容错相关参数(MapReduce性能优化)四、小文件优化方法1.小文件带来的问题2.Hadoop小文件解决方案一、问题分析为何MapReduce运行速度越来越慢分析1:硬件角度,如CPU、内存、网络、磁盘等分析2:从编码角度(IO操作)1.数据倾斜2.Map运行时间过长,使Re原创 2021-12-17 20:02:16 · 166 阅读 · 0 评论 -
HDFS优化操作
目录一、HDFS的多目录操作1.NameNode多目录的配置2.DataNode多目录配置3.集群数据均衡之磁盘间数据均衡二、HDFS集群的扩容与缩容1.添加白名单2.添加新服务器3.服务器间数据均衡4.黑名单退役服务器三、HDFS故障的排除1.NameNode故障处理2.集群安全模式&磁盘修复一、HDFS的多目录操作1.NameNode多目录的配置a.在每台服务器中,NameNode的本地目录都可以配置多个,并且每个目录存...原创 2021-12-17 18:55:49 · 1044 阅读 · 0 评论 -
Hadoop之Yarn案例
Hadoop之Yarn案例目录Hadoop之Yarn案例一、Yarn生产环境核心参数配置案例二、容量调度器多队列提交案例向Hive队列提交任务一、Yarn生产环境核心参数配置案例1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。2)需求分析:1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster平均每个节点运行10个 / 3台 ≈ 3个任务(4 3 3)3)修改yarn-sit原创 2021-12-17 16:53:14 · 1263 阅读 · 0 评论 -
Yarn资源调度器
一、什么是YarnYarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。二、Yarn基础架构三、Yarn的工作机制(1)MR程序提交到客户端所在的节点。(2)YarnRunner向ResourceManager申请一个Application。(3)RM将该应用程序的资源路径返回给YarnRunner。(4)该程序将运行所需资源提交到HDFS上。...原创 2021-12-16 16:33:58 · 157 阅读 · 0 评论 -
Hadoop之数据的压缩
一、压缩的概述1)压缩的好处和坏处压缩的优点:以减少磁盘IO、减少磁盘存储空间。压缩的缺点:增加CPU开销。2)压缩原则(1)运算密集型的Job,少用压缩(2)IO密集型的Job,多用压缩二、压缩算法对比介绍 压缩格式 Hadoop自带? 算法 文件扩展名 是否可切片 换成压缩格式后,原来的程序是否需要修改 DEFLATE原创 2021-12-16 15:45:07 · 190 阅读 · 0 评论 -
使用MapReduce做数据清洗(ETL)
“ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序,不需要运行Reduce程序。实例:去除日志中字段个数小于等于11的日志。(1)编写WebLogMapp...原创 2021-12-16 15:11:45 · 2126 阅读 · 0 评论 -
MapReduce之Join的应用
一、Reduce Join实例:表1 订单数据表t_order id pid amount 1001 01 1 1002 02 2 1003 03 3 1004 01 4 .原创 2021-12-16 15:01:01 · 417 阅读 · 0 评论 -
MapReduce之MapTask与ReduceTask工作机制
MapTask机制(1)Read阶段:MapTask通过InputFormat获得的RecordReader,从输入InputSplit中解析出一个个key/value。(2)Map阶段:该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value。(3)Collect收集阶段:在用户编写map()函数中,当数据处理完成后,一般会调用OutputCollector.collect()输出结果。在该函数内部,它会将生成的key/valu..原创 2021-12-16 14:37:46 · 211 阅读 · 0 评论 -
MapReduce之OutputFormat数据输出以及自定义实例操作
OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutputFormat接口。默认输出格式是TextOutputFormat当需要输出数据到MySQL/HBase/Elasticsearch等存储框架时需要自定义OutputFormat。定义OutputFormat步骤:1.自定义一个类继承FileOutputFormat2.改写Rec...原创 2021-12-16 14:11:44 · 1078 阅读 · 0 评论 -
MapReduce框架原理之Shuffle机制
Shuffle机制目录Shuffle机制一、Partition分区1.什么是分区2.默认的Partition分区3.自定义Partition步骤二、WritableComparable排序1.默认排序2.排序概述3.排序分类三、Combiner合并MapReduce总流程:input >> map(map+sort) >>reduce(copy+sort+reduce) >> output map的sor...原创 2021-12-16 11:52:01 · 949 阅读 · 0 评论 -
MapReduce框架原理之InputFormat数据输入
MapReduce框架原理之InputFormat数据输入目录MapReduce框架原理之InputFormat数据输入1.数据块与数据切片的区别2.数据切片与MapTask并行度决定机制3.Job提交源码分析4.切片源码解析5.FileInputFormat切片机制6.TextInputFormat7.CombineTextInputFormat切片机制实例:1.数据块与数据切片的区别数据块:Block是HDFS物理上把数据分成一块一块。数据块是HDFS存储原创 2021-12-16 09:52:25 · 208 阅读 · 0 评论 -
Hadoop序列化
Hadoop序列化目录Hadoop序列化一、序列化概述二、实操一、序列化概述1.什么是序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。2.为什么要序列化一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。 然而序...原创 2021-12-15 20:23:00 · 655 阅读 · 0 评论 -
Hadoop之MapReduce概述
Hadoop之MapReduce概述目录Hadoop之MapReduce概述一、MapReduce定义二、MapReduce的优缺点1.优点2.缺点三、MapReduce核心思想四、MapReduce进程五、官方WordCount源码和常用数据序列化类型六、MapReduce编程规范七、代码实例在集群测试一、MapReduce定义MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。...原创 2021-12-15 19:56:57 · 185 阅读 · 0 评论 -
Hadoop中NameNode、SecondaryNameNode和DataNode的工作机制
一、NameNode和SecondaryNameNode1.NameNode和SecondaryNameNode的工作机制思考:NameNode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。这样又会带来新的问题,当在内存中的元...原创 2021-12-14 17:37:35 · 613 阅读 · 0 评论 -
HDFS读写流程以及异常处理
HDFS读写流程以及异常处理目录HDFS读写流程以及异常处理一、HDFS的写流程二、网络拓扑-节点距离计算三、机架感知(副本存储节点选择)四、读数据流程一、HDFS的写流程(1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。(2)NameNode返回是否可以上传。(3)客户端请求第一个 Block上传到哪几个DataNode服务器上。(4)NameNode返原创 2021-12-10 20:39:05 · 867 阅读 · 0 评论 -
HDFS概述以及HDFS的shell操作和API操作
HDFS概述以及HDFS的shell操作和API操作一、HDFS概述1.HDFS背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。2.HDFS定义HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现原创 2021-12-10 20:12:30 · 1012 阅读 · 0 评论 -
Hadoop运行模式
Hadoop运行模式(1)Hadoop官方网站:Apache Hadoop(2)Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。a.本地模式:单机运行,只是用来演示一下官方案例。生产环境不用。b.伪分布式模式:也是单机运行,但是具备Hadoop集群的所有功能,一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试,生产环境不用。c.完全分布式模式:多台服务器组成分布式环境。生产环境使用。目录Hadoop运行模式一、本地运行模式(官方WordCount)二、完全原创 2021-12-09 14:25:00 · 2309 阅读 · 2 评论 -
Hadoop运行环境搭建
1.模板虚拟机准备a.安装模板虚拟机,IP地址192.168.10.100、主机名称hadoop100、内存4G、硬盘50Gb.hadoop100虚拟机配置要求如下(本文Linux系统全部以CentOS-7.5-x86-1804为例)(1)使用yum安装需要虚拟机可以正常上网,yum安装前可以先测试下虚拟机联网情况[root@hadoop100 ~]# ping www.baidu.com(2)安装epel-release注:Extra Packages for Enterpris原创 2021-12-09 10:27:28 · 689 阅读 · 0 评论 -
Hadoop概述
一、什么是Hadoop二、Hadoop发展史1.Hadoop创始人为Doug Cutting,为了实现与谷歌类似的全文搜索功能,他在Lucene框架基础上进行优化升级,查询引擎和索引引擎。2.2001年年底Lucene成为Apache基金会的一个子项目。3.对于海量数据的场景,Lucene框架面对与Google同样的困难,存储海量数据困难,检索海量数据速度慢。4.学习和模仿Google解决这些问题的办法:微型版Nutch。5.三篇论文可以说是Google是Hadoop的.原创 2021-12-08 21:17:12 · 1110 阅读 · 0 评论