1. 简述Google三驾马车是Hadoop等分布式系统的基石,其中论文()不属于三驾马车之一 ?
A:GFS
B:MapReduce
C:OpenTSDB
D:BigTable
选项C:OpenTSDB 不属于Google三驾马车之一。
Google的三驾马车是指以下三篇具有里程碑意义的论文,它们对Hadoop等分布式系统的设计理念产生了深远影响:
A: GFS (Google File System) —— GFS是Google开发的一个分布式文件系统,其论文描述了GFS的架构和设计,对Hadoop的HDFS(Hadoop Distributed File System)有重要影响。
B: MapReduce —— MapReduce是Google提出的一种编程模型,用于大规模数据集的并行处理。Hadoop的MapReduce是受Google MapReduce论文启发而开发的。
D: BigTable —— BigTable是Google开发的一种分布式存储系统,用于结构化数据。它的设计影响了Hadoop生态系统中的HBase等NoSQL数据库。
OpenTSDB是一个开源的时间序列数据库,它并不是Google三驾马车之一。OpenTSDB用于处理和存储时间序列数据,通常用于监控和测量系统。
2. 简述现有一个安装 2.6.5 版本的 Hadoop 集群,在不修改默认配置的情况下,存储 200 个每个 200M 的文本文件,请问最终会在集群中产生多少个数据块(包括副本) ?
A:200
B:40000
C:400
D:1200
在Hadoop中,默认的数据块大小(dfs.blocksize
)是128MB。给定的文本文件每个是200MB,但由于Hadoop的块大小是128MB,文件会被分割成两个数据块:一个128MB的块和一个不足128MB的剩余部分块。
由于每个文件会产生至少两个数据块(第一个块128MB,第二个块小于128MB),200个文件将产生至少400个数据块。
然而,由于默认的副本因子(dfs.replication
&#