
大数据03-Hadoop
文章平均质量分 93
hadoop、hdfs、mapreduce、yarn
是小先生
从头开始,为时不晚。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据笔记--Hadoop(第六篇)
一、YARN1、概述2、YARN的结构二、YARN的执行流程三、ResourceScheduler-资源调度器1、FIFO(先进先出)2、Capacity(资源容量)3、Fair(公平资源)四、完全分布式结构1、结构2、常见问题Operation category READ is not supported in state standby. 3、添加节点五、Federation HDFS-联邦HDFS1、当前HDFS架构的弊端2、联邦HDFS一、YARN1、概述原创 2022-03-14 02:49:05 · 1237 阅读 · 0 评论 -
大数据笔记--Hadoop(第五篇)
一、MapReduce组件1、Combiner-合并可以在Driver类中通过job.setCombinerClass(XXXReducer.class);来设置Combiner类Combiner实际上是在不改变计算结果前提的下来减少Reducer的输入数据量在实际过程中,如果添加Combiner,那么可以有效的提高MapReduce的执行效率,缩短MapReduce的执行时间。但是需要注意的是,并不是所有的场景都适合于使用Combiner。可以传递运算的场景,建议使用Comb原创 2022-03-14 02:46:34 · 576 阅读 · 0 评论 -
大数据笔记--Hadoop(第四篇)
一、MapReduce1、概述MapReduce是Hadoop提供的一套进行分布式计算机制MapReduce是Doug Cutting根据Google的论文<The Google MapReduce>来仿照实现的MapReduce会将整个计算过程拆分为2个阶段:Map阶段和Reduce阶段。在Map阶段,用户需要考虑对数据进行规整和映射;在Reduce阶段,用户需要考虑对数据进行最后的规约2、特点i、优点易于编程:MapReduce提供了相对简单的编程模型。这就保证M原创 2022-03-12 20:10:17 · 2255 阅读 · 0 评论 -
大数据笔记--Hadoop(第三篇)
目录一、HDFS常见命令二、回收站机制三、HDFS流程1、写(上传)流程2、读(下载)流程3、删除流程四、HDFS的AP操作1、首先创建maven工程2、配置pox.xml3、在resources下创建log42.xml4、新建HdfsDemo文件一、HDFS常见命令 start-dfs.sh 启动HDFS stop-dfs.sh 结束HDFS hdfs --dae原创 2022-03-11 19:44:41 · 852 阅读 · 0 评论 -
大数据笔记--Hadoop(第二篇)
一、HDFS1、概述HDFS(Hadoop Distributed File System - Hadoop分布式文件系统)是Hadoop提供的一套用于进行分布式存储的机制HDFS是Doug Cutting根据Google的论文<The Google File System>(GFS)来仿照实现的2、特点能够存储超大文件:在HDFS集群中,只要节点数量足够多,那么一个文件无论是多大都能够进行存储- HDFS会对文件进行切块处理快速的应对和检测故障:在HDFS集群中,运维.原创 2022-03-11 16:33:20 · 820 阅读 · 0 评论 -
大数据笔记--Hadoop(第一篇)
一、大数据简介1、简介①、美国调研机构Gartner给出了定义:大数据是一种新的处理模式,针对海量数据能够提供更强 的决策力、洞察发现力和流程优化能力②、维基百科给出了定义:大数据是指无法在可承受的时间范围内用常规的软件或者法来对大量的数据进行捕捉、管理和处理③、无论哪个机构对大数据进行定义,实际上都是围绕对海量数据进行快速有效的处理方案2、特点Volumn:数据体量大。很多中小型企业的入门数据量是从TB级别开始,很多大型企业的入门数据量是从PB级别开始,更有累计达到EB级别至ZB级原创 2022-03-11 00:47:39 · 1713 阅读 · 0 评论