百度
一面
- 项目中为什么考虑用两个平台来做
- 为什么你们白天做实时,晚上做离线,白天有离线任务吗,晚上有实时任务吗
- 你们两个平台统计的指标有什么不同
- 你们数据量多大
- 有多少表
- 表都存在hive里吗
- 实时数据存在哪里
- 解释下ods,dwd。。。。是什么意思
- 说一下你的数仓建模
- 为什么不在导数据到ods层前对数据去重
- 数据在前面去重会有性能上的影响吗,为什么
- 你们整个离线任务是怎么调度的
- 任务调度出现异常重跑会不会出现数据的重复
- 数据重复了怎么做
- 你们azkban调度除了hql任务还有其他任务吗
- 给个场景,azkban调度的过程中我想把中间某张表的数据下载到本地,怎么做
- 你还用过azkaban做过哪些任务的调度
- 你们的kafka设置了多少topic
- 你们写入kafka的数据是什么格式的
- 多少分区
- 你们kafka集群多少,做高可用了吗,为什么可以做高可用
- kafka高可用原理说一下
- shuffle流程
- mr的shuffle与spark的shuffle有什么区别
- 为什么group by比distinct高效
- 有3个key10个reduce,这3个key会分到10个reduce上吗
- 用hql写个问题
- hive有哪些保存元数据的方式,除了mysql
- flink集群角色有哪些,flink时间机制
- 你刚才讲shuffle时提到了快速排序,可以写一个快速排序吗
- 你java大概是什么水平,java SE是什么
碧桂园
一面
离线
- MySQL在你们离线的集群中是扮演的一个什么样的角色?
- 离线数仓ADS层的数据为什么不直接可视化,为什么还要再用sqoop导回到MySQL中去再实现可视化?
- 你们离线为什么要分那么多层?
- 你们的数仓建模的依据是什么?
- 维度建模分为哪几种?
- 事实是什么?维度是什么?
- 事实跟指标有什么区别?
- 说一说你是怎么用Atlas进行元数据管理和治理的? 我:....
实时
- 你们以HBase存维度表,维度表有什么变化的数据?
- 维度表变化的数据HBase是什么更新到的?
- 还问了一堆clickHouse的... 我说不熟..
- 问那个搜索关键词主题宽表用到的那个分词器是怎么弄的?为什么做这个?怎么做的?
- 时间语义是什么?
- 你说你用到interval join, 什么是interval join? 那个时间间隔是什么设定的?
- 你们公司有几台服务器?kafka有怎么分布?各个组件怎么布置?
- sparkSql有没有做过? 我说自己搭集群玩过
3万+

被折叠的 条评论
为什么被折叠?



