大数据面试真题_S

最新推荐文章于 2025-12-27 14:16:20 发布

原创最新推荐文章于 2025-12-27 14:16:20 发布 · 505 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #数据仓库 #面试

大数据面试真题合集专栏收录该内容

17 篇文章

订阅专栏

顺丰

没有问业务

javaJVM的优化
你了解有哪些算法吗（然后换了个说法，说你了解有哪些排序算法）
链表结构了解吗
平衡二叉树了解吗
kafka的ack
kafka怎么保证精准一次消费
kafka支持事务吗
hql熟吗
内部表和外部表有什么区别，什么时候使用内部表，什么时候使用外部表
你们在使用hql的时候做了哪些优化
你们的数据量有多大
你们有采用分区吗
你们的分区策略
分区太多和太少有什么问题
你跑的最慢的一个查询是多久
你在写hql的时候有没有做过什么优化
有没有遇到什么问题
join时数据类型不一致为什么会产生数据倾斜
sqoop参数
sqoop遇到了哪些问题
spark怎么保证数据一致性
spark怎么实现高可用
你们的数仓搭建原理（还是啥，有点忘了）
hadoop用的哪个版本
hive用的哪个版本
你有哪些优势
你们实时用的什么？（只是简单问了下，我回flink就没问了）
他们要找做离线的，目前没有实时需求
然后礼貌性的问了下你有什么要问的吗

虾皮shopee

java 的锁了解么？公平锁、非公平锁，偏向锁和非偏向锁？（纳尼？）
volatile关键字了解么？怎么用的？主存是怎么存的？那对应的非主存是怎么处理的？（？？）
说说零拷贝的原理？详细的说下
计算机原理的一些内容、为什么要分用户态和core？
https的通信机制？怎么建立连接的？（好像是这么问的）
信息编码的意义？
SQL的预编译的处理的底层原理了解么？
为什么C/C+ 用来写ClickHouse、redis、Zookeeper这些组件？和java有什么区别？你怎么看待
说说内部排序算法的时间、空间复杂度和对应的稳定性。（没说全，有点遗忘）
HBase的读流程（原话忘记了，意思是问这个），大表的写入，你们遇到的热点key的场景？怎么解决的？（分区）
redis的缓存击穿、缓存雪崩、缓存失效是什么意思和如何处理？
布隆过滤器原理和kafka 为什么快这些？
内部表和外部表的区别？分桶表的原理？一些简单的优化
HQL的处理流程，B+树和LSM的区别？分别讲讲他们的特点？为什么MySQL用B+树，HBase用LSM？
你们数仓的建模?(对应每层的处理)
留存率你从ods到ads说下各层都怎么处理获取的？最终的SQL要能用语言表述清除？（建议结合自己的业务）
如何快速从mysql导数据？离线：sqoop 实时：CDC
kafka 的producer/consumer 可能会出现的问题？丢和重复，怎么避免，怎么解决？
scala的val和var 各自的优缺点？为什么用val？场景设计一堆
scala 常见的集合？（可变和不可变）
scala option的底层原理是怎么设计和实现的有了解吗？
flink的精准一次性，两次事务详细说说
flink对于多个流的join是如何保证同时处理到的？（多个流启动总会有，不能保证流是同时到的，总有流的数据晚到了，怎么保证都能join上）（突然问蒙了，水印？状态？）
很有其他flink窗口相关的问题，具体的有点忘记了，就是各种异常场景和大状态的问题
一小时的数据IP，（数据量很大，）怎么得到top10？（只说方案和具体的实现，不敲代码）
flink有些内容有点没回答好，java相关的JUC和LSM忘记了。