待续:
hadoop
0.什么是hadoo
1.hadoop三大框架及作用
2.HDFS读流程
3.HDFS写流程
4.yarn流程
5.Mapreduce流程
6.yarn的调度器
7.副本放置策略
8.reduck task个数
9.hdfs小文件产生原因及解决
10.shuffle流程
hive
0.hive是什么
1.4个by
2.数据倾斜原因并解决
3.Hive 小文件过多怎么解决
4.Hive内部表和外部表的区别
5.三种排序的区别
6.Hive调优
spark
0.什么是spark及特点
1.saprk流程
2.血缘关系
3.宽窄依赖,如何划分stage,决定task个数
4.reduceByKey与groupByKey的区别
5.checkpoint
6.spark五大特性
7.spark on hive 和 hive on spark
8.什么是rdd,对弹性的理解
9.df和ds
10.spark运行模式
11.减少Spark运行中的数据库连接数
12.Spark Streaming第一次运行不丢失数据
kafka
0.什么是kafka
1.消费者和消费者组的区别
2.交付语义
3.数据丢失
4.数据重复
5.kafka重启
flume
0.什么是flume
1.flume的核心概念组件及作用
2.四种source的作用
3.负载和均衡的含义
4.Flume采集数据会丢失吗
5.解决小文件
linux
1.Linux的五条命令和作用
2.环境变量的位置
3.无法启动别名的原因
4.查端口
5.内网ip
6.生产空文件
7.查看文件和文件夹大小
shell
0.什么是shell
1.awk和sed的作用
2.$0,1,1,1,#,$$ 的意义
sql
0.什么是sql
1.数据清洗(nvl)
3.sql的三大类型
4.多表联查
5.union和unionall的区别
6.drop,delete,truncate的区别
监控
kafka