
Hadoop
SoWhat1412
微信搜索【SoWhat1412】,第一时间阅读原创干货文章。人之患、在好为人师、不实知、谨慎言。点点滴滴、皆是学问、看到了、学到了、便是收获、便是进步。
展开
-
Hadoop复习看这篇文章就够了
高清思维导图已同步Git:https://github.com/SoWhat1412/xmindfileHadoop入门HDFSMapReduce And YARN总结日常Hadoop企业优化日常工作1 MapReduce 跑的慢的原因Mapreduce 程序效率的瓶颈在于两点:1)计算机性能CPU、内存、磁盘健康、网络2)I/O 操作优化数据倾斜map和reduce数设置不合理reduce等待过久小文件过多大量的不可分块的超大文件spill次数过多m.原创 2020-05-29 16:45:36 · 2612 阅读 · 12 评论 -
【Hadoop】第一天 Hadoop基本概念跟原理以及安装
文章目录Hadoop集群按照,HDFS跟MapReduce自带demo演示Hadoop的由来Hadoop 干什么Hadoop在淘宝中的应用框架Hadoop 生态系统Hadoop 版本Hadoop 核心组件海量数据的存储用HDFS海量数据任务的分析MapReduce海量任务的调度 YARNHadoop 特点Hadoop 1.0跟2.0差别Hadoop 部署方式Hadoop 伪分布式搭建Hadoop...原创 2019-12-07 10:02:18 · 2220 阅读 · 6 评论 -
【Hadoop 】第二天 hdfs的原理和使用操作、编程
文章目录hadoop-shellNameNodeNameNode 工作特征SecondaryNameNode元数据数据的存入跟读出时候大概步骤NameNode 之 元数据操作细节什么时候checkpiont(hdfs-site.xml)元数据合并(checkpoint)细节DataNodeHDFS Java编程自我理解总结FileSystem涉及思想PRC(Romote Procedure Cal...原创 2019-12-08 11:18:07 · 1944 阅读 · 4 评论 -
【Hadoop】第三天 mapreduce的原理和编程
文章目录MapReduce概述MapReduce 原理MapperReducerWorkerMR 任务的本地运行模式YARNyarn的重要概念Yarn进程Job 提交流程图1.执行MR的命令2. MR执行流程Job 任务提交源码分析MR程序的几种提交运行模式本地模型运行集群模式运行MapReduce概述最简单的单机问题一旦涉及到大体量级迁移到分布式系统中的时候都会涉及到方方面面的各种编程,需要...原创 2019-12-10 13:43:28 · 1955 阅读 · 7 评论 -
【Hadoop】第四天 Shuffle MapReduce组件全貌
shuffle过程shuffle概念shuffle的本意是洗牌、混洗的意思,把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中,shuffle更像是洗牌的逆过程,指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据,以便reduce端接收处理。其在MapReduce中所处的工作阶段是map输出后到reduce接收前,具体可以分为map端和reduce端前后两个部...原创 2019-12-11 17:37:50 · 1823 阅读 · 3 评论 -
【Hadoop 】第五天 Hadoop-HA 搭建
问题Hadoop 1.0存在的问题:单点故障和内存受限NameNode单点故障:NameNode只有一个,一旦宕机了,则数据就会丢失,虽然有配置SecondaryNameNode,但是SecondardyNameNode合并元数据和日志文件需要时间的,所有还是会有部分数据会丢失(edits)NameNode压力大:单节点只有一个NameNode,所有的请求都访问一个NameNodeHa...原创 2019-12-13 18:24:32 · 941 阅读 · 16 评论 -
【Hadoop】第六天 Hive
HiveHive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 re...原创 2019-12-14 16:42:34 · 2469 阅读 · 10 评论