Hadoop
XavierYen
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop基础(七):Hive调优
文章目录Explain(执行计划)Fetch(默认开启)本地模式(少量小文件)表优化数据倾斜并行执行(非依赖关系的子查询)严格模式JVM重用(串行化)推测执行压缩/存储格式Explain(执行计划)EXPLAIN [EXTENDED | DEPENDENCY | AUTHORIZATION] queryFetch(默认开启)在全局查找、字段查找、limit 查找等都不走 mapreduceset hive.fetch.task.conversion=more/none;本地模式(少量小文件原创 2021-03-02 01:53:32 · 352 阅读 · 0 评论 -
Hadoop基础(三):分布式资源调度框架YARN
文章目录一、Yarn简介二、Yarn基本架构1.ResourceManager2.NodeManager3.ApplicationMaster4.Container三、Yarn执行流程四、Yarn资源调度器五、Yarn常用命令一、Yarn简介在 Hadoop2.x 时代,分离了 MapReduce 部分功能,将资源调度和运算分开,增加了 Yarn。Yarn 只负责资源的调度,MapReduce 只负责运算。而且 Yarn 不仅仅能运行 MapReduce 程序,还可以运行后面会学习的 Spark 应用原创 2020-12-17 08:25:40 · 788 阅读 · 0 评论 -
Hadoop基础(四):Hadoop容错机制
文章目录一、HDFS副本机制二、YARN容错机制1.Map/ReduceTask2.ApplicationMaster3.Nodemanager4.ResourceManager三、HA高可用集群一、HDFS副本机制HDFS对于读写的容错机制是基于HDFS的副本机制对于文件上传HDFS副本放置策略是默认三个备份,当前节点一份,同一机架不同节点一份,不同机架任任意节点一份。如果上传过程中某一副本上传失败,那么整个块的上传失败,需要重新启动这个副本的上传。对于文件下载下载失败可能因为备份丢失或节点原创 2020-12-17 08:23:34 · 2854 阅读 · 3 评论 -
Hadoop基础(二):分布式计算框架MapReduce
文章目录一、MapReduce基础入门1.为什么要MapReduce2.MapReduce优缺点3.MapReduce进程结构4.MapReduce程序运行流程分析一、MapReduce基础入门MapReduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。1.为什么要MapReduce海量数据在单机上处理因为硬件资源原创 2020-12-13 23:49:39 · 543 阅读 · 0 评论 -
Hadoop基础(一):分布式文件系统HDFS
文章目录一、HDFS架构1.HDFS设计思想2.HDFS组成架构2.1 Client:客户端2.1 NameNode:元数据节点(Master)2.1 DateNode:数据存储节点(Slave)2.1 Secondary NameNode:从元数据节点(非NameNode热备)一、HDFS架构1.HDFS设计思想随着互联网产生的数据量越来越大,单个操作系统不能满足海量数据的存储要求,因此需要更多的操作系统磁盘来分配存储数据,但由此带来的问题是不方便管理和维护。分布式文件系统的产生就是为了解决多台机原创 2020-12-11 03:49:27 · 560 阅读 · 1 评论
分享