大数据面试真题_J

最新推荐文章于 2025-12-27 14:16:20 发布

原创最新推荐文章于 2025-12-27 14:16:20 发布 · 452 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #面试 #数据仓库

大数据面试真题合集专栏收录该内容

17 篇文章

订阅专栏

久谦科技

自我介绍
介绍一下你最近在做的项目
你们用的什么语言
Flink项目是用的api还是用的sql开发的？为什么？
Java的hashmap底层架构，往里面的链表插数据是头还是尾
单例模式怎么实现的，懒汉式里怎么整成线程安全的
口述一下快排思路
有若干个0-100的正整数，求出其中所有的两两组合和为100情况，口述思路
我一个干大数据的老问我Java干嘛？拉扯一下
MySQL的索引，什么情况下需要建索引（Java折磨完MySQL折磨，继续拉扯）
redis用过吗？redis你们保存什么类型的数据
你们Hbase里存维度数据？维度数据不多为啥要用hbase存？
了解spark吗
spark里重分区的算子
spark里的宽依赖和窄依赖了解吗
kafka的分区分配策略

九章数据

就Spark我6台服务器每台120个核 1T内存 80T数据你怎么分配资源
简历上写的指标你一定要知道怎么实现，他家就是干这个的，GMV，复活，流转等等
hive我80T的数据量跑的特别慢，你怎么去优化
给你需求，行转列，列转行之类的需求，在这过程汇总还要排序，过滤，去重，你怎么实现（先是给他说了他的简单需求可以通过hive的函数实现，然后他给你加需求，我说那这样就可以定义UDTF函数，在代码中我对数据做一个去重和过滤以及排序的功能）
Altas是拿来干嘛的，最低依赖级别能做到什么程度（字段级别）
你们是怎么做同步策略的
你们的宽表是怎么存储的，怎么确定他的字段
拉链表，这个真的很重要，在这给他扯了十多二十分钟，直接把他家的黑板写满了，先给你抛个需求，问你怎么实现，这个时候你就要想到用拉链表去实现，他就会问你拉链表怎么制作，怎么确定拉链表的字段，你跟他扯完之后，又在拉链表的基础上再给你抛需求，继续要你实现（反正我就跟他掰扯，他一直说你这样确实可以实现，但是如果出现某某问题，那你们又是如何解决的，我人就傻了......)
你业务库中的数据前一天的数据发生改变，比如说用户下完单又退单了，你怎么这些改变后的数据在同步到hive中，（跟他掰扯怎么实现后，他又在后面提需求，说要要加个ETL时间字段，具体实现某个需求（这个需求忘记了），人瞬间傻了，这是拿来干嘛的......）
你们hive中的宽表存在哪里，字段怎么确定
你们的数据量是多大，就是dws层宽表的数据量
hive和Spark的区别

九章数据那边暂时能想起来的就这么几个点，反正就是看你的简历下菜，一直给你需求，还有很多需求想不起来了，就一直问你需求怎么实现看你的随机应变能力了