大数据开发面试题总结（2021.9.6--）

最新推荐文章于 2025-06-25 09:56:25 发布

原创最新推荐文章于 2025-06-25 09:56:25 发布 · 415 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#big data #hadoop #hive

本文概述了shell脚本中的局部和全局变量，Hive分区操作与修复，多线程并发优化，HBase与Hive的区别，数据格式与集群规模，以及大数据技术如Kafka、Hadoop、Hive等的关键知识点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 shell脚本局部变量和全局变量 local定义局部变量
2 hive建表未分区，数据是分区的怎么装载？ alter/msck修复分区 msck repair
3 shell脚本日期格式化例 202109061919 echo date '+%Y%m%d-%H%M%S'
4 java多线程高并发怎么优化，设置最大线程数量
5 Hbase 和hivesql的查询语句的区别是什么
Hive和Hbase是两种基于Hadoop的不同技术–Hive是一种类SQL的引擎，并且运行MapReduce任务，Hbase是一种在Hadoop之上的NoSQL 的Key/vale数据库。
6 rc /orc和textfile区别是什么，特点和应用场景
8 kafka如何保证不重复不丢失数据
保证消息精确传递一次
消费者丢失消息：总是先消费消息，再更新位移，手动提交offset。消费端重复：建立去重表
生产者丢失消息，加入producerid，同一消息可能被producer发送多次，但是在broker端只会写入一次，他为每一条消息编号去重
9 kafka怎么保证数据不出错
多副本冗余备份
做的项目
10介绍一下Hadoop
11 Hbase是什么
12 Hive数仓建模分几层
13Hive3.0区别
14落地数据格式
15集群规模多大
16落地数据有多大
17集群有多少台机器
18有几台NameNode
19NameNode关系
20Kafka主题
21大数据用到哪些技术
22shell脚本命令
文件第一行第一列
杀死进程
23SQL列：姓名，科目，成绩
求每个科目考试人数
24关系型数据库和非关系型数据库对比
25数据库划分层级
SQL调优
上游数据怎么拿到Kafka
Kafka数据丢失
Hadoop常用命令
简单描述一下Hbase
Hbase怎么体现列式存储（数据是怎么存储，为什么叫列式存储）
Hbase基础配置（代码）
Json是什么
什么是字节流，什么是字符流
常用的线程池
什么是sock
如何自定义UDF函数
sql调优
大数据哪块比较熟悉？
数据仓库的数据怎么删除（删除一条）
数据仓库partition分区分桶理解
取出表A中的数据并排除表B的数据写sql --黑名单
linux查看进程/端口
hive查看某一个字符串第一个逗号和第二个逗号之间的内容
oracle数据库
linux查看cpu命令
关系数据库非关系数据区别
怎么实现数据清洗，数据清洗是为什么服务的
为什么要做这个项目？
多线程并发调优，线程池
hive数据仓库建模？模型？事实表，维度表？
linux如何查看第一行有多少列
序列化和反序列化应用场景哪些？
nio和bio的区别？

9.8日面试题总结

1 JVM内存模型
2 调度器以及yarn的调度策略
3 springboot的常用注解
4 使用过哪些前端框架
5 redis数据类型
6 为什么用redis?
7 hadoop版本差异
8 hdfs写入数据的过程
9 hadoop集群启动需要启动哪些程序
10 hadoop调度器和调度策略
11 hadoop如何实现二级排序
12 数据从hdfs上传到hive
13 udf,udaf,udtf
14 json数据怎么导入hive —json_to_object
15 hive中的计算引擎tez