
Hadoop
文章平均质量分 84
败给你的黑色幽默丶
if i say you're the one would you believe me;
if i ask you to stay would you show me the way
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【Hadoop 企业开发经验】01 HDFS
1.HDFS存储多目录(1)给Linux系统新增加一块硬盘参考:https://www.cnblogs.com/yujianadu/p/10750698.html(2)生产环境服务器磁盘情况(3)在hdfs-site.xml文件中配置多目录,注意新挂载磁盘的访问权限问题HDFS的DataNode节点保存数据的路径由dfs.datanode.data.dir参数决定,其默认值为file://${hadoop.tmp.dir}/dfs/data,若服务器有多个磁盘,必须对该参数进行修改。如服务器磁盘原创 2021-10-07 21:33:08 · 257 阅读 · 0 评论 -
【Hadoop】数据压缩
压缩技术概述是否采用压缩MapReduce支持的压缩技术记住:1.支持切片的只有bzip2和lzo2.lzo不是hadoop自带,需要额外安装并且需要建立索引文件才能有效使用hadoop自带适配的编码/解码器压缩性能的比较snappy:http://google.github.io/snappy/Snappy is a compression/decompression library. It does not aim for maximum compression, or c原创 2021-09-27 23:44:48 · 816 阅读 · 2 评论 -
【Hadoop Yarn01】 Yarn资源调度器&参数配置
yarn是一个资源调度平台,相当于一个分布式的操作系统平台,负责为运算程序提供服务器运算资源,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。Yarn基础架构核心组件:ResourceManagerNodeManagerApplicationMasterContainerResourceManager(RM)职责:(1)接收Yarn客户端的请求,比如提交计算作业(MR、Spark、Flink)(2)监控NodeManager 的资源(CPU\内存)(3)启动和原创 2021-09-29 20:13:13 · 1073 阅读 · 0 评论 -
【Hadoop】【 MapReduce】Mapper ETL
ETL在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序,不需要运行Reduce程序ETL案例需求去除日志中字段个数小于等于11的日志。194.237.142.21 - - [18/Sep/2013:06:49:18 +0000] "GET /wp-content/uploads/2013/07/rstudio-git3.png HTTP/1.1" 304 0 "-" "Mozilla/4.0 (compatib原创 2021-09-27 22:34:46 · 117 阅读 · 0 评论 -
【Hadoop】【MapReduce】【Join】
Reduce Join原理Map端工作:(1)对不同来源的数据打上标签,标签就是该数据的来源地;(2)连接字段作为key,其他部分和标签作为valueReduce端工作:(1)在reduce()中将同一个key的一组数据根据数据源字段进行分离Reduce Join实战1.数据源1.订单数据表t_orderid pid amount1001 01 11002 02 21003 03 31004 01 41005 02 51006 03 6商品信息表t_productpi原创 2021-09-27 22:23:47 · 197 阅读 · 0 评论 -
【Hadoop】【 MapReduce】【shuffle机制 】【04】MapTask & ReduceTask
(1)Copy阶段:ReduceTask从各个MapTask上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则写到磁盘上,否则直接放到内存中。(2)Merge阶段:在远程拷贝数据的同时,ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并,以防止内存使用过多或磁盘上文件过多。(3)Sort阶段:按照MapReduce语义,用户编写reduce()函数输入数据是按key进行聚集的一组数据。为了将key相同的数据聚在一起,Hadoop采用了基于排序的策略。由于各个MapTask.原创 2021-09-26 22:00:20 · 108 阅读 · 0 评论 -
【Hadoop】【 MapReduce】【shuffle机制 】【03】 Combiner
Combiner合并combiner就是运行在Mapper端的reduce 预聚合 减少IO数据量,和Reduce数据处理量combiner既然是聚合,那么只适合sum\count需求统计过程中对每一个MapTask的输出进行局部汇总,以减小网络传输量即采用Combiner功能注意:如果不要reduce,就会没有shuffle阶段,就不会有combinejob.setNumReduceTasks(0);如果reduce和combiner的逻辑相同,可以将reduce和combi原创 2021-09-26 21:57:30 · 219 阅读 · 0 评论 -
【Hadoop】【 MapReduce】【shuffle机制 】【02】排序
排序MapReduce程序中数据都会被排序,不管逻辑上是否需要;排序是MapReduce框架中最重要的操作之一;MapTask中有两次排序1.环形缓冲区达到阈值,对缓冲区中数据进行快排,然后再溢写到磁盘2.Map处理完数据后,对磁盘上所有文件进行合并 采用归并排序ReduceTask中有一次排序从MapTask中远程拷贝相应的数据文件到内存中,当文件大小达到阈值,溢写到磁盘;如果磁盘文件数目达到阈值,进行一次归并排序;如果内存中文件大小或者数目达到阈值,进行合并溢出到磁盘上;数据cop原创 2021-09-26 21:28:43 · 390 阅读 · 0 评论 -
【Hadoop】【 MapReduce】【shuffle机制 】【01】分区
1.MapReduce工作流程(1)客户端提交任务之前,会先对job进行处理,提交三种东西本地模式没有jar包,集群模式有jar包(2)将job信息提交给Yarn的RM(3)RM分配AppMaster,Appmaster计算出需要多少个MapTask(4)然后经过InputFormat处理成kv和切片交给Mapper(5)Mapper处理完,将数据写入环形缓冲区(6)环形缓冲区默认大小100M,默认达到80%的时候,开启一个新的线程从缓冲区溢写到磁盘中环形缓冲区中一边存储索引,一边存储数据原创 2021-09-23 00:35:50 · 391 阅读 · 0 评论 -
【Hadoop】 【MapReduce】【03】InputFormat
MapReduce数据流程1. InputFormat1.1 切片与MapTask并行度决定机制1.2 Job提交流程源码1. InputFormat1.1 切片与MapTask并行度决定机制(1)数据块和数据切片的概念数据块:Block是HDFS物理上把文件分成一块一块。数据块是HDFS存储数据单位。数据切片:数据切片只是对一个数据文件在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。数据切片是MapReduce程序计算输入数据的单位。一个切片会对应启动一个MapTask。(2)原创 2021-09-22 22:49:16 · 1016 阅读 · 0 评论 -
【Hadoop】【MapReduce】【02】序列化
Hadoop序列化Hadoop自定义序列化类型1.Hadoop 序列化接口Writable2.实现bean对象序列化步骤3.序列化案例实操3.1 自定义Bean做value3.2 Mapper类3.3 Reducer类3.4 打包上传到服务器,运行查看结果为什么要序列化? 因为之前咱们的key-value都是Hadoop自带的数据类型,这些数据类型是Hadoop框架用自己的序列化方式封装好的基础数据类型。在企业开发中往往常用的基本序列化类型不能满足所有需求,比如在Hadoop框架内部传递一个bean对象,原创 2021-09-19 19:03:30 · 433 阅读 · 0 评论 -
【Hadoop】【MapReduce】【01】wordcount
第1章 MapReduce概述1.1 MapReduce定义MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。1.2 MapReduce优缺点1.2.1 优点1)MapReduce 易于编程它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的PC机器上运行。也就是说你写一个分布式原创 2021-09-19 14:16:19 · 160 阅读 · 0 评论 -
【Hadoop】【HDFS】
HDFS1.概述1.1HDFS产出背景及定义1.2HDFS优缺点1.3 HDFS组成架构2.HDFS的shell相关操作3.HDFS客户端API4.HDFS读写流程5.NN和2NN6.DateNode工作机制1.概述1.1HDFS产出背景及定义HDFS产出背景:数据量越来越大,一个操作系统无法存下,需要分配到更多的操作系统管理的磁盘中,但是不方便管理和维护。HDFS就是一个文件管理系统,可以管理多台机器上的文件;叫做分布式文件管理系统;HDFS只是分布式管理系统的一种;HDFS定义分布式原创 2021-09-17 00:32:04 · 342 阅读 · 0 评论 -
【Hadoop】【第三章】搭建Hadoop集群常见错误 & 入门知识点总结
1.Hadoop常见错误及解决方案1)连接不上resourceManager防火墙没关闭、或者没有启动YARNINFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:80322)主机名称配置错误3)IP地址配置错误4)ssh没有配置好5)root用户和atguigu两个用户启动集群不统一6)配置文件修改不细心7)未编译源码Unable to load native-hadoop lib原创 2021-08-31 02:51:41 · 323 阅读 · 0 评论 -
【Hadoop】【第三章】Hadoop分布式集群搭建
入门03_搭建分布式集群1.克隆三台机器1.1 关于虚拟机的移除和删除1.2 分别配置三台虚拟机2. 集群配置2.1 跨机器拷贝/同步脚本2.1.1 scp(secure copy)安全拷贝工具2.1.2 rsync远程同步工具2.1.3 xsync集群分发脚本2.2 SSH无秘登陆配置2.2.1 免密登录原理2.2.2 免密登录配置2.2.3 .ssh文件夹下(~/.ssh)的文件功能解释2.3 规划集群2.4 配置文件说明2.5 进行配置2.6 分发配置文件到集群各个节点2.7 群起集群(1) 配置wo原创 2021-08-31 02:41:09 · 607 阅读 · 0 评论 -
【Hadoop】【第三章】虚拟机准备 & 安装Hadoop
1. 模板虚拟机环境准备准备模板虚拟机,是为了后面再扩建服务器不需要重新安装1)准备一台模板虚拟机hadoop100(最小化安装),虚拟机配置要求如下:注:本文Linux系统环境全部以CentOS-7.5-x86-1804为例说明模板虚拟机:内存4G,硬盘50G,安装必要环境,为安装hadoop做准备2. 集群配置1.集群规划① NameNode和SecondaryNameNode不要安装在同一台服务器② ResourceManager也很消耗内存,不要和NameNode、Secondary原创 2021-08-25 23:25:04 · 379 阅读 · 0 评论 -
【Hadoop】【第二章】认识Hadoop
Hadoop框架1.概念2.环境准备(前戏)3.Hadoop实际生产种集群的搭建4.Hadoop常见错误及解决方案原创 2021-08-25 23:39:43 · 429 阅读 · 0 评论 -
【Hadoop】【第一章】认识大数据
六个板块1.入门2.HDFS3.MapReduce4.Yarn5.生产调优6.Hadoop源码解析Hadoop版本 3.1.3学习前置基础:JavaSEMavenIDEALinux1.大数据概念无法在短时间内使用常规软件进行 捕获、管理、处理的数据集合;庞大的数据集需要新的处理模式才能转变为信息资产,从而使得公司具备更强的决策力,洞察力、流程优化能力海量、高增长率、多样化的信息资产1.数据量单位bit byte KB MB GB TB PB EB ZB YB原创 2021-08-24 02:51:54 · 408 阅读 · 4 评论