1.项目里用到flume,flume的source、channel、sink分别用的什么类型的,flume事务。
2.kafka producer的写入数据过程
3.kafka为什么使用拉取消息的机制
4.Spark工作流程
5.Stage是如何划分的,task如何划分
6.executor内存分配
7.项目中用到前台向持久层拿数据,问从hive中拿不会慢吗,答使用sqoop传到mysql
8.hdfs的写入文件流程
9.java实现LRU
难啊难啊难.......
本文深入探讨了大数据领域的关键概念和技术,包括Flume的数据流转机制、Kafka的消息传递原理、Spark的工作流程、HDFS的文件写入流程等。同时,文章还讲解了LRU算法的Java实现,以及在实际项目中如何高效地从前台获取持久层数据,通过使用Sqoop将数据从Hive传输至MySQL来提升数据读取速度。
1.项目里用到flume,flume的source、channel、sink分别用的什么类型的,flume事务。
2.kafka producer的写入数据过程
3.kafka为什么使用拉取消息的机制
4.Spark工作流程
5.Stage是如何划分的,task如何划分
6.executor内存分配
7.项目中用到前台向持久层拿数据,问从hive中拿不会慢吗,答使用sqoop传到mysql
8.hdfs的写入文件流程
9.java实现LRU
难啊难啊难.......
1961
6274
4798
2139

被折叠的 条评论
为什么被折叠?