大数据开发面试题总结(2021.9.6--)

本文概述了shell脚本中的局部和全局变量,Hive分区操作与修复,多线程并发优化,HBase与Hive的区别,数据格式与集群规模,以及大数据技术如Kafka、Hadoop、Hive等的关键知识点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 shell脚本局部变量和全局变量 local定义局部变量
2 hive建表未分区,数据是分区的 怎么装载? alter/msck修复分区 msck repair
3 shell脚本日期格式化 例 202109061919 echo date '+%Y%m%d-%H%M%S'
4 java多线程高并发 怎么优化,设置最大线程数量
5 Hbase 和hivesql的查询语句的区别是什么
Hive和Hbase是两种基于Hadoop的不同技术–Hive是一种类SQL的引擎,并且运行MapReduce任务,Hbase是一种在Hadoop之上的NoSQL 的Key/vale数据库。
6 rc /orc和textfile区别是什么,特点和应用场景
8 kafka如何保证不重复不丢失数据
保证消息精确传递一次
消费者丢失消息:总是先消费消息,再更新位移,手动提交offset。消费端重复:建立去重表
生产者丢失消息,加入producerid,同一消息可能被producer发送多次,但是在broker端只会写入一次,他为每一条消息编号去重
9 kafka怎么保证数据不出错
多副本冗余备份
做的项目
10介绍一下Hadoop
11 Hbase是什么
12 Hive数仓建模分几层
13Hive3.0区别
14落地数据格式
15集群规模多大
16落地数据有多大
17集群有多少台机器
18有几台NameNode
19NameNode关系
20Kafka主题
21大数据用到哪些技术
22shell脚本命令
​ 文件第一行第一列
​ 杀死进程
23SQL列:姓名,科目,成绩
​ 求每个科目考试人数
24关系型数据库和非关系型数据库对比
25数据库划分层级
SQL调优
上游数据怎么拿到Kafka
Kafka数据丢失
Hadoop常用命令
简单描述一下Hbase
Hbase怎么体现列式存储(数据是怎么存储,为什么叫列式存储)
Hbase基础配置(代码)
Json是什么
什么是字节流,什么是字符流
常用的线程池
什么是sock
如何自定义UDF函数
sql调优
大数据哪块比较熟悉?
数据仓库的数据怎么删除(删除一条)
数据仓库partition分区分桶理解
取出表A中的数据并排除表B的数据写sql --黑名单
linux查看进程/端口
hive查看某一个字符串第一个逗号和第二个逗号之间的内容
oracle数据库
linux查看cpu命令
关系数据库非关系数据区别
怎么实现数据清洗,数据清洗是为什么服务的
为什么要做这个项目?
多线程并发调优,线程池
hive数据仓库建模?模型?事实表,维度表?
linux如何查看第一行有多少列
序列化和反序列化应用场景哪些?
nio和bio的区别?

9.8日面试题总结

1 JVM内存模型
2 调度器以及yarn的调度策略
3 springboot的常用注解
4 使用过哪些前端框架
5 redis数据类型
6 为什么用redis?
7 hadoop版本差异
8 hdfs写入数据的过程
9 hadoop集群启动需要启动哪些程序
10 hadoop调度器和调度策略
11 hadoop如何实现二级排序
12 数据从hdfs上传到hive
13 udf,udaf,udtf
14 json数据怎么导入hive —json_to_object
15 hive中的计算引擎tez

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值