1. 简述下面关于Hadoop系统中使用CombineFileInputFormat解决小文件问题的描述错误的是() ?
A:CombineFileInputFormat是使用Hadoop API(抽象类CombineFileInputFormat)来解决小文件的问题
B:抽象类CombineFileInputFormat的基本思想是通过使用一个定制的InputFormat允许将小文件合并到Hadoop的分片或块中
C:要使用抽象类CombineFileInputFormat,需要实现3个定制类:CustomCFIF、PairOfStringLong、CustomRecordReader
D:PairOfStringLong要扩展CombineFileInputFormat,创建子类来支持定制格式的输入
描述错误的是:
D:PairOfStringLong要扩展CombineFileInputFormat,创建子类来支持定制格式的输入 - 这个描述是错误的。PairOfStringLong并不是一个类,而是Hadoop API中的一个泛型类,通常用作MapReduce作业中的键类型,用于存储字符串和长整型数据对。它不需要扩展CombineFileInputFormat,也不需要创建子类来支持定制格式的输入。
其他选项的说明:
A:CombineFileInputFormat是使用Hadoop API(抽象类CombineFileInputFormat)来解决小文件的问题 - 这个描述是正确的。CombineFileInputFormat是Hadoop API中的一个抽象类,用来解决小文件问题。
B:抽象类CombineFileInputFormat的基本思想是通过使用一个定制的InputFormat允许将小文件合并到Hadoop的分片或块中 - 这个描述是正确的。CombineFileInputFormat允许开发者将多个小文件作为一个大的逻辑输入分片处理,从而减少Map任务的数量。
C:要使用抽象类CombineFileInputFormat,需要实现3个定制类:CustomCFIF、PairOfStringLong、CustomRecordReader - 这个描述部分正确,但可能存在误解。使用CombineFileInputFormat时,通常需要实现一个自定义的InputFormat类(这里称为CustomCFIF),继承自CombineFileInputFormat。PairOfStringLong不是需要实现的类,而CustomRecordReader是需要实现的一个类,用于处理合并后输入分片的记录读取。
2. 简述有关Hadoop生态中各个角色对在高可用上的作用下列描述错误的是() ?
A:YARN集群:为主备切换控制器提供主备选举支持
B:共享存储系统:共享存储系统保存了NameNode在运行过程中所产生的HDFS的元数据,Active NameNode和Standby NameNode通过共享存储系统实现元数据同步
C:DataNode节点:DataNode节点的HDFS的Block和DataNode之间的映射关系,在故障主备切换时,DataNode会主动上报Block和DataNode的映射关系
D:NameNode节点:一台处于 Active 状态,为主 NameNode,另外一台处于 Standby 状态,为备 NameNode,只有主 NameNode 才能对外提供读写服务
描述错误的是:
A:YARN集群:为主备切换控制器提供主备选举支持 - 这个描述是错误的。在Hadoop高可用性(HA)配置中,YARN并不负责NameNode的主备选举。实际上,ZooKeeper用于NameNode的主备选举,而YARN主要负责集群的资源管理和作业调度。
其他选项的说明:
B:共享存储系统:共享存储系统保存了NameNode在运行过程中所产生的HDFS的元数据,Active NameNode和Standby NameNode通过共享存储系统实现元数据同步 - 这个