大数据面试真题_B

百度

一面

  1. 项目中为什么考虑用两个平台来做
  2. 为什么你们白天做实时,晚上做离线,白天有离线任务吗,晚上有实时任务吗
  3. 你们两个平台统计的指标有什么不同
  4. 你们数据量多大
  5. 有多少表
  6. 表都存在hive里吗
  7. 实时数据存在哪里
  8. 解释下ods,dwd。。。。是什么意思
  9. 说一下你的数仓建模
  10. 为什么不在导数据到ods层前对数据去重
  11. 数据在前面去重会有性能上的影响吗,为什么
  12. 你们整个离线任务是怎么调度的
  13. 任务调度出现异常重跑会不会出现数据的重复
  14. 数据重复了怎么做
  15. 你们azkban调度除了hql任务还有其他任务吗
  16. 给个场景,azkban调度的过程中我想把中间某张表的数据下载到本地,怎么做
  17. 你还用过azkaban做过哪些任务的调度
  18. 你们的kafka设置了多少topic
  19. 你们写入kafka的数据是什么格式的
  20. 多少分区
  21. 你们kafka集群多少,做高可用了吗,为什么可以做高可用
  22. kafka高可用原理说一下
  23. shuffle流程
  24. mr的shuffle与spark的shuffle有什么区别
  25. 为什么group by比distinct高效
  26. 有3个key10个reduce,这3个key会分到10个reduce上吗
  27. 用hql写个问题
  28. hive有哪些保存元数据的方式,除了mysql
  29. flink集群角色有哪些,flink时间机制
  30. 你刚才讲shuffle时提到了快速排序,可以写一个快速排序吗
  31. 你java大概是什么水平,java SE是什么

碧桂园

一面

离线

  1. MySQL在你们离线的集群中是扮演的一个什么样的角色?
  2. 离线数仓ADS层的数据为什么不直接可视化,为什么还要再用sqoop导回到MySQL中去再实现可视化?
  3. 你们离线为什么要分那么多层?
  4. 你们的数仓建模的依据是什么?
  5. 维度建模分为哪几种?
  6. 事实是什么?维度是什么?
  7. 事实跟指标有什么区别?
  8. 说一说你是怎么用Atlas进行元数据管理和治理的? 我:....

实时

  1. 你们以HBase存维度表,维度表有什么变化的数据?
  2. 维度表变化的数据HBase是什么更新到的?
  3. 还问了一堆clickHouse的... 我说不熟..
  4. 问那个搜索关键词主题宽表用到的那个分词器是怎么弄的?为什么做这个?怎么做的?
  5. 时间语义是什么?
  6. 你说你用到interval join, 什么是interval join? 那个时间间隔是什么设定的?
  7. 你们公司有几台服务器?kafka有怎么分布?各个组件怎么布置?
  8. sparkSql有没有做过? 我说自己搭集群玩过

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

走过冬季

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值