1 shell脚本局部变量和全局变量 local定义局部变量
2 hive建表未分区,数据是分区的 怎么装载? alter/msck修复分区 msck repair
3 shell脚本日期格式化 例 202109061919 echo date '+%Y%m%d-%H%M%S'
4 java多线程高并发 怎么优化,设置最大线程数量
5 Hbase 和hivesql的查询语句的区别是什么
Hive和Hbase是两种基于Hadoop的不同技术–Hive是一种类SQL的引擎,并且运行MapReduce任务,Hbase是一种在Hadoop之上的NoSQL 的Key/vale数据库。
6 rc /orc和textfile区别是什么,特点和应用场景
8 kafka如何保证不重复不丢失数据
保证消息精确传递一次
消费者丢失消息:总是先消费消息,再更新位移,手动提交offset。消费端重复:建立去重表
生产者丢失消息,加入producerid,同一消息可能被producer发送多次,但是在broker端只会写入一次,他为每一条消息编号去重
9 kafka怎么保证数据不出错
多副本冗余备份
做的项目
10介绍一下Hadoop
11 Hbase是什么
12 Hive数仓建模分几层
13Hive3.0区别
14落地数据格式
15集群规模多大
16落地数据有多大
17集群有多少台机器
18有几台NameNode
19NameNode关系
20Kafka主题
21大数据用到哪些技术
22shell脚本命令
文件第一行第一列
杀死进程
23SQL列:姓名,科目,成绩
求每个科目考试人数
24关系型数据库和非关系型数据库对比
25数据库划分层级
SQL调优
上游数据怎么拿到Kafka
Kafka数据丢失
Hadoop常用命令
简单描述一下Hbase
Hbase怎么体现列式存储(数据是怎么存储,为什么叫列式存储)
Hbase基础配置(代码)
Json是什么
什么是字节流,什么是字符流
常用的线程池
什么是sock
如何自定义UDF函数
sql调优
大数据哪块比较熟悉?
数据仓库的数据怎么删除(删除一条)
数据仓库partition分区分桶理解
取出表A中的数据并排除表B的数据写sql --黑名单
linux查看进程/端口
hive查看某一个字符串第一个逗号和第二个逗号之间的内容
oracle数据库
linux查看cpu命令
关系数据库非关系数据区别
怎么实现数据清洗,数据清洗是为什么服务的
为什么要做这个项目?
多线程并发调优,线程池
hive数据仓库建模?模型?事实表,维度表?
linux如何查看第一行有多少列
序列化和反序列化应用场景哪些?
nio和bio的区别?
9.8日面试题总结
1 JVM内存模型
2 调度器以及yarn的调度策略
3 springboot的常用注解
4 使用过哪些前端框架
5 redis数据类型
6 为什么用redis?
7 hadoop版本差异
8 hdfs写入数据的过程
9 hadoop集群启动需要启动哪些程序
10 hadoop调度器和调度策略
11 hadoop如何实现二级排序
12 数据从hdfs上传到hive
13 udf,udaf,udtf
14 json数据怎么导入hive —json_to_object
15 hive中的计算引擎tez