
Hadoop
文章平均质量分 78
hadoop技术。
大数据技术派
待我代码写成,便娶你为妻。
展开
-
hadoop 数据迁移
数据迁移使用场景冷热集群数据分类存储,详见上述描述.集群数据整体搬迁.当公司的业务迅速的发展,导致当前的服务器数量资源出现临时紧张的时候,为了更高效的利用资源,会将原A机房数据整体迁移到B机房的,原因可能是B机房机器多,而且B机房本身开销较A机房成本低些等.数据的准实时同步.数据的准实时同步与上一点的不同在于第二点可以一次性操作解决,而准实时同步需要定期同步,而且要做到周期内数据基本完全一......原创 2018-11-18 13:19:36 · 5360 阅读 · 0 评论 -
Hadoop面试题(四)——YARN
1、简述hadoop1与hadoop2 的架构异同1)加入了yarn解决了资源调度的问题。2)加入了对zookeeper的支持实现比较可靠的高可用。2、为什么会产生 yarn,它解决了什么问题,有什么优势?1)Yarn最主要的功能就是解决运行的用户程序与yarn框架完全解耦。2)Yarn上可以运行各种类型的分布式运算程序(mapreduce只是其中的一种),比如mapreduce、storm程序,spark程序……3、HDFS的数据压缩算法?(☆☆☆☆☆)Hadoop中常用的压缩算法有bzip原创 2021-10-24 14:40:26 · 642 阅读 · 0 评论 -
Hadoop面试题总结(二)——HDFS
1、 HDFS 中的 block 默认保存几份?默认保存3份2、HDFS 默认 BlockSize 是多大?默认64MB3、负责HDFS数据存储的是哪一部分?DataNode负责数据存储4、SecondaryNameNode的目的是什么?他的目的使帮助NameNode合并编辑日志,减少NameNode 启动时间5、文件大小设置,增大有什么影响?HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中原创 2021-10-13 12:56:51 · 569 阅读 · 0 评论 -
YARN调度器(Scheduler)详解
理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。YARN架构如下:ResourceManager(RM):负责对各NM上的资源进行统一管理和调度,将AM分配空闲的Container运行并监控其运行.原创 2021-02-19 18:22:38 · 936 阅读 · 2 评论 -
maprecue将两类ip分类去重并且输出到不同目录文件中
有一份含有两类ip的数据,根据一个字段标记来区分,现在需要将去重,两类Ip分类保存到不同文件中,第三类数据舍弃。mapreduce程序如下:pom文件<?xml version="1.0" encoding="UTF-8&原创 2019-03-15 23:59:11 · 612 阅读 · 0 评论