Hadoop
文章平均质量分 83
卡其色的夏日
大数据爱好者
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop优化
Hadoop企业优化6.1 MapReduce 跑的慢的原因Mapreduce 程序效率的瓶颈在于两点:1)计算机性能CPU、内存、磁盘健康、网络2)I/O 操作优化(1)数据倾斜(2)map和reduce数设置不合理(3)map运行时间太长,导致reduce等待过久(4)小文件过多(5)大量的不可分块的超大文件(6)spill次数过多(7)merge次数过多等。6.2 MapReduce优化方法MapReduce优化方法主要从六个方面考虑:数据输入、原创 2021-01-04 20:31:04 · 247 阅读 · 0 评论 -
Hadoop之MapReduce
1.3 MapReduce(☆☆☆☆☆)1.3.1 谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?1)序列化和反序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。 反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。Java的序列化是一个重量级序列化框架(Serializable),一个对象...转载 2018-04-30 20:42:16 · 1392 阅读 · 0 评论 -
Hadoop之Yarn
1.4 Yarn及源码框架(☆☆☆☆)1.4.1 简述Hadoop1与Hadoop2 的架构异同加入了yarn解决了资源调度的问题。加入了对zookeeper的支持实现比较可靠的高可用。1.4.2 为什么会产生 yarn,它解决了什么问题,有什么优势?Yarn最主要的功能就是解决运行的用户程序与yarn框架完全解耦。Yarn上可以运行各种类型的分布式运算程序(mapreduce只是其中的一种),比...转载 2018-04-30 20:44:14 · 245 阅读 · 0 评论 -
Hadoop之优化
1.5 优化(☆☆☆☆☆)1.5.1 mapreduce跑的慢的原因(☆☆☆☆☆)Mapreduce 程序效率的瓶颈在于两点:1)计算机性能 CPU、内存、磁盘健康、网络2)I/O 操作优化(1)数据倾斜(2)map和reduce数设置不合理(3)reduce等待过久(4)小文件过多(5)大量的不可分块的超大文件(6)spill次数过多(7)merge次数过多等。1.5.2 mapre...转载 2018-04-30 20:52:38 · 1008 阅读 · 0 评论 -
Hadoop之企业运维
1.6 企业运维相关(☆☆☆☆)1.6.1 Hadoop会有哪些重大故障,如何应对?至少给出 5个。1)namenode单点故障:通过zookeeper搭建HA高可用,可自动切换namenode。2)ResourceManager单点故障:可通过配置YARN的HA,并在配置的namenode上手动启动ResourceManager作为Slave,在Master 故障后,Slave 会自动切换为Ma...转载 2018-04-30 20:53:35 · 300 阅读 · 0 评论 -
Hadoop之企业案例分析
1.7 企业案例分析(☆☆☆☆)1.7.1 海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的 IP 取出来,逐个写入到一个大文件中。注意到IP 是 32 位的,最多有个 2^32 个 IP。同样可以采用映射的方法, 比如模 1000,把整个大文件映射为1000 个小文件,再找出每个小文中出现频率最大的 IP(可以采用 hash_map进行频率统计,然后再找...转载 2018-04-30 20:55:17 · 636 阅读 · 0 评论 -
关于Hadoop的基础面试题
1.1 Hadoop基础(☆☆)1.1.1 下列哪项通常是集群的最主要瓶颈(C)A.CPUB.网络C.磁盘 IOD.内存1.1.2 下列哪项可以作为集群的管理?(C)C.ClouderaManagerD.Zookeeper1.1.3 下列哪个是Hadoop运行的模式?(ABC)A.单机版B.伪分布式C.完全分布式1.1.4 列举几个hadoop生态圈的组件并做简要描述1)Zookeeper:是一个...翻译 2018-04-28 19:21:18 · 2580 阅读 · 0 评论 -
Hadoop之HDFS面试题整理
1.2HDFS(☆☆☆)1.2.1 HDFS 中的 block 默认保存几份?(A)A.3 份B.2 份C.1 份D.不确定1.2.2HDFS 默认 BlockSize 是(C)A.32MBB.64MB(2.7.2版本,本地模式)C.128MB(2.7.2版本,分布式模式)1.2.3 Client 端上传文件的时候下列哪项正确?(BC)A.数据经过NameNode传递DataNodeB.Clien...翻译 2018-04-28 19:28:56 · 15914 阅读 · 4 评论
分享