大数据面试真题_J

久谦科技

  1. 自我介绍
  2. 介绍一下你最近在做的项目
  3. 你们用的什么语言
  4. Flink项目是用的api还是用的sql开发的?为什么?
  5. Java的hashmap底层架构,往里面的链表插数据是头还是尾
  6. 单例模式怎么实现的,懒汉式里怎么整成线程安全的
  7. 口述一下快排思路
  8. 有若干个0-100的正整数,求出其中所有的两两组合和为100情况,口述思路
    我一个干大数据的老问我Java干嘛?拉扯一下
  9. MySQL的索引,什么情况下需要建索引(Java折磨完MySQL折磨,继续拉扯)
  10. redis用过吗?redis你们保存什么类型的数据
  11. 你们Hbase里存维度数据?维度数据不多为啥要用hbase存?
  12. 了解spark吗
  13. spark里重分区的算子
  14. spark里的宽依赖和窄依赖了解吗
  15. kafka的分区分配策略

九章数据

  1. 就Spark我6台服务器 每台120个核 1T内存 80T数据 你怎么分配资源
  2. 简历上写的指标你一定要知道怎么实现,他家就是干这个的,GMV,复活,流转等等
  3. hive我80T的数据量跑的特别慢,你怎么去优化
  4. 给你需求,行转列,列转行之类的需求,在这过程汇总还要排序,过滤,去重,你怎么实现(先是给他说了他的简单需求可以通过hive的函数实现,然后他给你加需求,我说那这样就可以定义UDTF函数,在代码中我对数据做一个去重和过滤以及排序的功能)
  5. Altas是拿来干嘛的,最低依赖级别能做到什么程度(字段级别)
  6. 你们是怎么做同步策略的
  7. 你们的宽表是怎么存储的,怎么确定他的字段
  8. 拉链表,这个真的很重要,在这给他扯了十多二十分钟,直接把他家的黑板写满了,先给你抛个需求,问你怎么实现,这个时候你就要想到用拉链表去实现,他就会问你拉链表怎么制作,怎么确定拉链表的字段,你跟他扯完之后,又在拉链表的基础上再给你抛需求,继续要你实现(反正我就跟他掰扯,他一直说你这样确实可以实现,但是如果出现某某问题,那你们又是如何解决的,我人就傻了......)
  9. 你业务库中的数据前一天的数据发生改变,比如说用户下完单又退单了,你怎么这些改变后的数据在同步到hive中,(跟他掰扯怎么实现后,他又在后面提需求,说要要加个ETL时间字段,具体实现某个需求(这个需求忘记了),人瞬间傻了,这是拿来干嘛的......)
  10. 你们hive中的宽表存在哪里,字段怎么确定
  11. 你们的数据量是多大,就是dws层宽表的数据量
  12. hive和Spark的区别

九章数据那边暂时能想起来的就这么几个点,反正就是看你的简历下菜 ,一直给你需求,还有很多需求想不起来了,就一直问你需求怎么实现 看你的随机应变能力了


评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

走过冬季

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值