
面试题
文章平均质量分 89
L缶神
java,大数据爱好者,欢迎各位交流技术。
展开
-
Spark面试题
目录1. Spark的三种部署模式2. RDD的理解(☆)3. Spark作业调度流程(☆)4. RDD的容错机制(☆)(1)Lineage机制(2)Checkpoint机制5. Spark的三种算子6. Spark shuffle(☆)(1)HashShuffle原始的 HashShuffle 机制优化后的 HashShuffle 机制(2)SortShuffle(3)bypass shuffle(4)UnsafeShuffle7. Spark数据倾斜(☆)8. spark streaming从kafka原创 2022-06-29 19:24:34 · 1283 阅读 · 0 评论 -
Kafka面试题
Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。(1)点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除)消息生产者生产消息发送到Queue中,然后消息消费者从Queue中取出并且消费消息。消息被消费以后,queue 中不再有存储,所以消息消费者不可能消费到已经被消费的消息。Queue 支持存在多个消费者,但是对一个消息而言,只会有一个消费者可以消费。(2)发布/订阅模式(一对多,消费者消费数据之后不会清除消息)消息生产者(发布)将原创 2022-06-29 19:21:21 · 490 阅读 · 0 评论 -
Flume面试题
1. 你是如何实现Flume 数据传输的监控的使用第三方框架 Ganglia 实时监控 Flume。2. Flume 的Source,Sink,Channel 的作用?你们Source 是什么类型?1. 作用(1)Source组件是专门用来收集数据的,可以处理各种类型、各种格式的日志数据,包括 avro、thrift、exec、jms、spoolingdirectory、netcat、sequence generator、syslog、http、legacy(2)Channel组件对采集到的数据进行缓存,可原创 2022-06-29 19:19:25 · 502 阅读 · 0 评论 -
HBase面试题
目录1. HBase数据模型(☆)2. HBase架构(☆) 3. HBase读写流程(☆)4. StoreFile Compaction相关5. Region Split相关6. HBase和Hive比较(☆)7. HBase优化(☆)8. RowKey的三个原则(☆)1)NameSpace命名空间,类似于关系型数据库的 DatabBase 概念,每个命名空间下有多个表。HBase有两个自带的命名空间,分别是 hbase 和 default,hbase 中存放的是 HBase 内置的表,default 表原创 2022-06-29 09:40:44 · 2191 阅读 · 2 评论 -
ZooKeeper面试题
目录1. ZooKeeper介绍2. ZooKeeper选举机制(☆)3. 节点类型4. 监听器原理(☆)5. 写数据流程6. ZooKeeper的部署方式有哪几种?集群中的角色有哪些?集群最少需要几台机器?7. CAP、BASE理论(☆)1. ZooKeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,ZooKeeper就将负责通知已经在ZooKeeper上注册的那些观察者做出相应的反应。2. 特原创 2022-06-27 09:00:42 · 336 阅读 · 0 评论 -
Hive面试题
Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。本质是:将 HQL 转化成 MapReduce 程序1)Hive 处理的数据存储在 HDFS2)Hive 分析数据底层的默认实现是 MapReduce3)执行程序运行在 Yarn 上1.用户接口:ClientCLI(hive shell)、JDBC/ODBC(java 访问 hive)、WEBUI(浏览器访问 hive)2.原创 2022-06-24 08:51:30 · 302 阅读 · 0 评论 -
Hadoop面试题
目录1. 集群的最主要瓶颈2. Hadoop运行模式3. Hadoop的组成4. block份数和大小默认配置5. HDFS读写数据流程(☆)6. 节点距离和机架感知(副本存储节点选择)(☆)7. Secondary NameNode8. 集群安全模式9. DataNode工作机制10. HDFS HA(☆)工作要点自动故障转移工作机制11. HDFS 防止脑裂问题(☆)12. Yarn HA(☆)13. Yarn 防止脑裂问题(☆)14. Hadoop序列化和反序列化介绍及不使用Java序列化的原因?15原创 2022-06-23 14:52:15 · 1804 阅读 · 0 评论