
Hadoop
文章平均质量分 89
提灯寻梦在南国
这个作者很懒,什么都没留下…
展开
-
MapReduce高级应用——全排序和二次排序
前言尽管现在MapReduce程序在日常开发中已经代码编写已经很少了,但作为大数据Hadoop的三大板块之一,他内在的许多思想也是很多后续框架的基础铺垫。本篇博客,南国重点回顾一下MR中的排序相关知识点。网上关于这个知识点 可能已经有很多的知识介绍,本来不打算写这篇博客。最近一段时间终于抽空看了Hadoop权威指南的大部分内容。于是,本篇博客 南国试着从面试回顾的角度去编写这篇博客。话不多说,...原创 2020-01-11 20:53:20 · 665 阅读 · 0 评论 -
Cloudera Manager HA模式搭建
2 Cloudera Manager HA模式搭建2.1 设置主机和负载平衡器在一个高水平,在单独的主机上设置Cloudera Manager Server和Cloudera Management Service 角色(包括Cloudera Navigator),并确保通过配置的负载平衡器对来自其他Cloudera服务和管理控制台的主机进行网络访问。它主要分为4步:1.为主服务器和辅助服务...原创 2019-10-06 12:10:41 · 1120 阅读 · 4 评论 -
大数据面试中经典的案例分析
1. Hadoop会有哪些重大故障,如何应对?1)namenode单点故障:通过zookeeper搭建HA高可用,可自动切换namenode。2)ResourceManager单点故障:可通过配置YARN的HA,并在配置的namenode上手动启动ResourceManager作为Slave,在Master 故障后,Slave 会自动切换为Master。3)reduce阶段内存溢出:是由于单...原创 2019-05-19 14:40:59 · 1278 阅读 · 0 评论 -
Yarn架构详细剖析
参考文章:https://blog.youkuaiyun.com/qq_33624952/article/details/79341034https://www.cnblogs.com/wcwen1990/p/6737985.html转载 2019-01-23 23:15:20 · 374 阅读 · 0 评论 -
Hadoop处理数据倾斜
前言南国在最开始学习Hadoop的时候,一直其他人说的数据倾斜 集数据倾斜的解决办法没有完全弄明白。通过这段时间的学习,看了许多资料,这里参考网上资料 以及自己的理解。这篇博客 写一个有关于数据倾斜的归纳总结。话不多说,干货马上送到。。。数据倾斜的定义在弄清什么是数据倾斜之前,我想让大家看看数据分布的概念:正常的数据分布理论上都是倾斜的,就是我们所说的20-80原理:80%的财富集中在20...转载 2019-01-23 21:48:18 · 372 阅读 · 2 评论 -
Hadoop中Join多种应用
今天,南国在网上看到一篇不错的文章总结,也是我之前没有深入学习的一个知识点。在这里,对知识点做一个简要的概括和案例分析。总结:Join: 将两个中的字段,通过公共字段进行关联!MR :①在Reduce端Join1.保证两个文件中的所有字段,都必须达到Reduce!需要将两个文件的所有字段封装为一个Bean2.在Map端,为每个文件,打上标记弊端:如果数据量大,reduce端处理过程耗...转载 2019-01-15 10:40:02 · 625 阅读 · 0 评论 -
MapReduce编程-类似qq的好友推荐(朋友的朋友)[文章最后 面试相关问题讲解]
1.案例一:好友推荐(朋友的朋友)案例场景:在qq 微博等众多社交平台中,用户a有n位好友,在这n位好友里面的好友中有m位不是a的直接好友(例如用户b)。但是通过朋友的朋友,a与b之间有多位共同好友,换而言之,a是b可能认识的人。那如何得到用户a可能认识的人呢?方法:利用两个map/resuce方法,第一个map/reduce得到朋友的朋友出现的次数,第二个map/reduce得到每个用户 可...原创 2018-11-01 11:11:45 · 1094 阅读 · 0 评论 -
MapReduce编程Demo-wordcount优化,天气分析(weather code)
前言延续上一篇博文MapReduce学习笔记-模型介绍,工作机制,单词计数(wordCount),我简要叙述了mapreduce的一些基本理论知识和一个单词计数的入门小样例。在mapreduce编程中,基本的编程思路是继承Hadoop Jar包中的类重写map方法和reduce方法,对代码进行优化,我们在此基础上加入自行定义的combiner方法 partition方法等。上一篇博文中的单...原创 2018-10-03 22:03:29 · 664 阅读 · 0 评论 -
MapReduce入门-模型介绍,工作机制,单词计数(wordCount)及代码详解
1.简单了解MapReduceMapReduce是hadoop的核心组件之一,hadoop要分布式包括两部分,一是分布式文件系统hdfs,二是分布式计算框,就是mapreduce,缺一不可,也就是说,可以通过mapreduce很容易在hadoop平台上进行分布式的计算编程 。MapReduce最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。Google公司设计...原创 2018-09-24 21:49:29 · 691 阅读 · 0 评论 -
HDFS学习笔记-原理 架构 读写机制 多副本机制 shell使用 javaAPI练习
HDFS(Hadoop Distributed File System)称为Hadoop分布式文件系统,以流式数据访问模式来存储超大文件,运行于商用硬件集群上,是管理网络中跨多台计算机存储的文件系统。HDFS不适合用在:要求低时间延迟数据访问的应用,存储大量的小文件,多用户写入,任意修改文件。1.块BlockHDFS数据块:HDFS上的文件被划分为块大小的多个分块,作为独立的存储单元,...原创 2018-09-17 21:24:27 · 1092 阅读 · 0 评论 -
Hadoop的三种运行模式和三个版本
学大数据入门的首先是Hadoop,程序员首先学会搭建Hadoop框架。这里简单介绍Hadoop的三种运行模式:-单机模式-伪分布式模式-完全分布式模式单机模式-默认模式。-不对配置文件进行修改。-使用本地文件系统,而不是分布式文件系统。-Hadoop不会启动NameNode、DataNode、JobTracker、TaskTracker等守护进程,Map()和R...原创 2018-08-27 20:39:27 · 1482 阅读 · 0 评论 -
Hadoop(MapReduce)性能优化
前言我们时常谈论说到MapReduce时,我们都会说它是离线计算框架,磁盘IO开销大,job运行比较慢等等。这一篇博客,南国系统回顾下mr程序运行慢的原因,以及如何优化mr程序。MapReduce运行慢的原因我们都知道MapReduce是离线计算框架,不同于Spark内存计算框架模型。一个标准的mr程序由map方法和reduce方法构成,数据源在map方法前输入,map方法的输出结果放在磁...原创 2019-04-14 17:19:04 · 662 阅读 · 0 评论 -
大数据面试题——Hadoop篇
前言结合南国 不到一年时间 学习大数据的知识梳理,加上2019年春天找实习的经历,在这里南国写博客的同时会参考一些资料 写出大数据内一些高频的面试知识点。1.Hadoop基础通常是集群的最主要瓶颈:磁盘IOcpu 和内存在大数据集群中都是可以扩充的,磁盘不行。Yarn,ClouderaManager可以作为集群的管理,zookeeper不可以。Zookeeper:是一个开源的分布式应...原创 2019-04-12 17:22:12 · 1561 阅读 · 0 评论