大数据基础--习题整理(2)

这是一份关于大数据处理的习题集,涵盖了Hadoop、Spark、HDFS、Hive等多个方面,包括了多选题,涉及Reducer的使用、机架感知配置、HDFS上传文件流程、Flume组件、Spark部署方式、RDD缓存、HBase设计原则等核心概念和最佳实践。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

习题二

1、下列哪些业务场景中,可以使用Reducer充当Combiner使用?(多选)( abc )
A、sum求和     B、max求最大值    C、count求计数     D、avg求平均


2、下列关于配置机架感知的相关描述是正确的?(多选)( acd )
A、如果一个机架出问题,不会影响数据读写和正确性
B、写入数据的时候多个副本会写到不同机架的 DataNode 中
C、MapReduce 会根据机架的拓扑获取离自己比较近的数据块
D、数据块的第一个副本会优先考虑存储在客户端所在节点


3、Client端上传文件的时候下列描述哪些是错误的?(多选)( acd )
A、数据经过 NameNode 传递给 DataNode
B、Client端将文件切分为 Block,依次上传
C、Client只上传数据到一台DataNode,然后由NameNode负责Block复制
D、Client如果上传的时候没有上传成功指定的副本数,则整次上传不成功


4、Flume agent由哪些组件构成(多选)( abc )
A、Source     B、Channel     C、Sink     D、Spool


5、Spark 支持的分布式部署方式有哪些(多选) ( abc )
A、standalone     B、spark on mesos     C、spark on YARN     D、Spark on local


6、下列哪些是 RDD 的缓存方法(多选) ( ab )
A、persist()    B、Cache()     C、Memory()     D、Map()


7、Rowkey设计的原则,下列哪些选项的描述是正确的?(多选)( abc )
A、尽量保证越短越好
B、可以使用汉字
C、可以使用字符串
D、本身是无序的


8、HBase性能优化包含下面的哪些选项?(多选)(abcd )
A、读优化     B、写优化    C、配置优化      D、JVM优化


9、下列哪个属性是hdfs-site.xml中的配置?a
A、dfs.replication
B、fs.defaultFS
C、mapreduce.framework.name
D、yarn.resourcemanager.address


10、以下哪种不是Hive支持的数据类型?d
A、Struct     B、Int    C、Map 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值