大数据面试题总结:
一. hdfs相关
1.1 hdfs读写流程(详细流程)
1.2 hdfs pipeline recovery;
1.3 hdfs journalnode工作原理;
1.4 hdfs ha实现原理;
1.5 hdfs 慢节点问题解决方案;
1.6 hdfs rpc性能优化方案;
1.7 hadoop多租户实现方案,利用rbac权限管理;
二. hbase相关
2.1 hbase实现原理;
2.2 hbase compaction和split机制;
2.3 hbase rowkey设计原则;
2.4 hbase replication原理;
三. 计算组件
3.1 spark实现原理; 任务执行流程;
3.2 spark调优方法;
3.3 spark 推测执行机制;
3.4 flink实现原理;任务执行流程;
3.5 spark streaming和struced streaming 区别;
四. 数据接入+消息队列
4.1 kafka producer如何保证数据的exactly once;
五. 其他
5.1 paxos分布式一致性协议实现原理与步骤;