大数据面试题

本文深入解析了大数据领域的关键技术,包括Hadoop的各个组件及其工作原理、Spark的特点与流程、Kafka的消息传递机制、Flume的数据采集方式以及Linux基础操作等。针对Hive、Spark等工具在实际应用中遇到的问题提出了优化方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

待续:
hadoop
0.什么是hadoo
1.hadoop三大框架及作用
2.HDFS读流程
3.HDFS写流程
4.yarn流程
5.Mapreduce流程
6.yarn的调度器
7.副本放置策略
8.reduck task个数
9.hdfs小文件产生原因及解决
10.shuffle流程

hive
0.hive是什么
1.4个by
2.数据倾斜原因并解决
3.Hive 小文件过多怎么解决
4.Hive内部表和外部表的区别
5.三种排序的区别
6.Hive调优

spark
0.什么是spark及特点
1.saprk流程
2.血缘关系
3.宽窄依赖,如何划分stage,决定task个数
4.reduceByKey与groupByKey的区别
5.checkpoint
6.spark五大特性
7.spark on hive 和 hive on spark
8.什么是rdd,对弹性的理解
9.df和ds
10.spark运行模式
11.减少Spark运行中的数据库连接数
12.Spark Streaming第一次运行不丢失数据

kafka
0.什么是kafka
1.消费者和消费者组的区别
2.交付语义
3.数据丢失
4.数据重复
5.kafka重启

flume
0.什么是flume
1.flume的核心概念组件及作用
2.四种source的作用
3.负载和均衡的含义
4.Flume采集数据会丢失吗
5.解决小文件

linux
1.Linux的五条命令和作用
2.环境变量的位置
3.无法启动别名的原因
4.查端口
5.内网ip
6.生产空文件
7.查看文件和文件夹大小

shell
0.什么是shell
1.awk和sed的作用
2.$0,1,1,1#,$$ 的意义

sql
0.什么是sql
1.数据清洗(nvl)
3.sql的三大类型
4.多表联查
5.union和unionall的区别
6.drop,delete,truncate的区别

监控

kafka

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值