
大数据面试题
Running-小猛
这个作者很懒,什么都没留下…
展开
-
大数据工程师面试题—1
1. 选择题1.1. 下面哪个程序负责 HDFS 数据存储。 c)Datanode 答案 C datanode1.2. HDfS 中的 block 默认保存几份? a)3 份 答案 A 默认 3 份1.3. 下列哪个程序通常与 NameNode 在一个节点启动? d)Jobtracker 答案 D1.4. HDFS 默认 Block Size c)128MB 答案:C1.5. 下...转载 2018-12-18 11:12:20 · 376 阅读 · 0 评论 -
大数据相关面试题整理-带答案
1、fsimage和edit的区别? 大家都知道namenode与secondary namenode 的关系,当他们要进行数据同步时叫做checkpoint时就用到了fsimage与edit,fsimage是保存最新的元数据的信息,当fsimage数据到一定的大小事会去生成一个新的文件来保存元数据的信息,这个新的文件就是edit,edit会回滚最新的数据。2、列举几个配置文件优化? --发挥...转载 2018-12-18 11:00:58 · 541 阅读 · 0 评论 -
大数据工程师面试题—2
2.7. 用mapreduce来实现下面需求? 现在有10个文件夹,每个文件夹都有1000000个url.现在让你找出top1000000url。 方法一: 运用2个job,第一个job直接用filesystem读取10个文件夹作为map输入,url做key,reduce计算url的sum, 下一个job map用url作key,运用sum作二次排序,reduce中取top10000000 1:...转载 2018-12-18 11:14:49 · 287 阅读 · 0 评论 -
大数据工程师面试题—3
2.13. 简述hadoop的调度器 FIFO schedular:默认,先进先出的原则 Capacity schedular:计算能力调度器,选择占用最小、优先级高的先执行,依此类推 Fair schedular:公平调度,所有的job具有相同的资源。2.14. 列出你开发mapreduce的语言 java2.15. 手写程序 wordcount mapper: String vStr = va...转载 2018-12-18 11:17:48 · 279 阅读 · 0 评论 -
大数据工程师面试题—4
2.23. 我们开发job时,是否可以去掉reduce阶段。 可以。设置reduce数为0 即可。2.24. datanode在什么情况下不会备份 datanode在强制关闭或者非正常断电不会备份。2.25. combiner出现在那个过程 出现在map阶段的map方法后等。2.26. hdfs的体系结构 hdfs有namenode、secondraynamenode、datanode组成。 为n...转载 2018-12-18 11:21:07 · 848 阅读 · 0 评论 -
大数据工程师面试题—5
2)HashMap和HashTable,ArrayList和Vector,ArrayList和LinkedList的区别 1 HashMap不是线程安全的 hashmap是一个接口 是map接口的子接口,是将键映射到值的对象,其中键和值都是对象,并且不能包含重复键,但可以包含重复值。 HashMap允许null key和null value,而hashtable不允许。 2 HashTable...转载 2018-12-18 11:32:41 · 562 阅读 · 0 评论 -
大数据面试题—6
3.14 1、一个Hadoop环境,整合了HBase和Hive,是否有必要给HDFS和Hbase都分别配置压缩策略?请给出对压缩策略的建议。 hdfs在存储的时候不会将数据进行压缩,如果想进行压缩,我们可以在向hdfs上传数据的时候进行压缩。 1)、 采用压缩流 2)、 采用序列化文件 hbase为列存数据库,本身存在压缩机制,所以无需设计。 3、简述Hbase性能优化的思...转载 2018-12-18 14:28:25 · 444 阅读 · 0 评论 -
大数据面试题—7
9. 面试问题: 1.从前到后从你教育背景(学过哪些课)到各个项目你负责的模块,问的很细(本以为他是物理学博士,但是所有的技术都懂) 2.hadoop 的 namenode 宕机,怎么解决 先分析宕机后的损失,宕机后直接导致client无法访问,内存中的元数据丢失,但是硬盘中的元数据应该还存在,如果只是节点挂了, 重启即可,如果是机器挂了,重启机器后看节点是否能重启,不能重启就要找到原因修复了。...转载 2018-12-18 14:34:42 · 358 阅读 · 0 评论 -
大数据相关面试题整理(简单)
1、hadoop: 1)hadoop是大数据分析的完整生态系统,从数据采集,存储,分析,转运,再到页面展示,构成了整个流程 2)采集可以用flume, 3)存储用hbase,hdfs,mangodb就相当于hbase, 4)分析用Mapreduce自己写算法, 5)还有hive做数据仓库, 6)pig做数据流处理, 7)转储方面有sqoop,可以将hdfs中的数据转...转载 2018-12-18 14:36:18 · 415 阅读 · 0 评论