大数据面试题

最新推荐文章于 2025-12-17 20:09:02 发布

原创最新推荐文章于 2025-12-17 20:09:02 发布 · 90 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文深入解析了大数据领域的关键技术，包括Hadoop的各个组件及其工作原理、Spark的特点与流程、Kafka的消息传递机制、Flume的数据采集方式以及Linux基础操作等。针对Hive、Spark等工具在实际应用中遇到的问题提出了优化方案。

待续：
hadoop
0.什么是hadoo
1.hadoop三大框架及作用
2.HDFS读流程
3.HDFS写流程
4.yarn流程
5.Mapreduce流程
6.yarn的调度器
7.副本放置策略
8.reduck task个数
9.hdfs小文件产生原因及解决
10.shuffle流程

hive
0.hive是什么
1.4个by
2.数据倾斜原因并解决
3.Hive 小文件过多怎么解决
4.Hive内部表和外部表的区别
5.三种排序的区别
6.Hive调优

spark
0.什么是spark及特点
1.saprk流程
2.血缘关系
3.宽窄依赖，如何划分stage，决定task个数
4.reduceByKey与groupByKey的区别
5.checkpoint
6.spark五大特性
7.spark on hive 和 hive on spark
8.什么是rdd，对弹性的理解
9.df和ds
10.spark运行模式
11.减少Spark运行中的数据库连接数
12.Spark Streaming第一次运行不丢失数据

kafka
0.什么是kafka
1.消费者和消费者组的区别
2.交付语义
3.数据丢失
4.数据重复
5.kafka重启

flume
0.什么是flume
1.flume的核心概念组件及作用
2.四种source的作用
3.负载和均衡的含义
4.Flume采集数据会丢失吗
5.解决小文件

linux
1.Linux的五条命令和作用
2.环境变量的位置
3.无法启动别名的原因
4.查端口
5.内网ip
6.生产空文件
7.查看文件和文件夹大小

shell
0.什么是shell
1.awk和sed的作用
2.$0， $1 ，$ #，$$ 的意义

sql
0.什么是sql
1.数据清洗（nvl）
3.sql的三大类型
4.多表联查
5.union和unionall的区别
6.drop,delete,truncate的区别

监控

kafka

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。