久谦科技
- 自我介绍
- 介绍一下你最近在做的项目
- 你们用的什么语言
- Flink项目是用的api还是用的sql开发的?为什么?
- Java的hashmap底层架构,往里面的链表插数据是头还是尾
- 单例模式怎么实现的,懒汉式里怎么整成线程安全的
- 口述一下快排思路
- 有若干个0-100的正整数,求出其中所有的两两组合和为100情况,口述思路
我一个干大数据的老问我Java干嘛?拉扯一下 - MySQL的索引,什么情况下需要建索引(Java折磨完MySQL折磨,继续拉扯)
- redis用过吗?redis你们保存什么类型的数据
- 你们Hbase里存维度数据?维度数据不多为啥要用hbase存?
- 了解spark吗
- spark里重分区的算子
- spark里的宽依赖和窄依赖了解吗
- kafka的分区分配策略
九章数据
- 就Spark我6台服务器 每台120个核 1T内存 80T数据 你怎么分配资源
- 简历上写的指标你一定要知道怎么实现,他家就是干这个的,GMV,复活,流转等等
- hive我80T的数据量跑的特别慢,你怎么去优化
- 给你需求,行转列,列转行之类的需求,在这过程汇总还要排序,过滤,去重,你怎么实现(先是给他说了他的简单需求可以通过hive的函数实现,然后他给你加需求,我说那这样就可以定义UDTF函数,在代码中我对数据做一个去重和过滤以及排序的功能)
- Altas是拿来干嘛的,最低依赖级别能做到什么程度(字段级别)
- 你们是怎么做同步策略的
- 你们的宽表是怎么存储的,怎么确定他的字段
- 拉链表,这个真的很重要,在这给他扯了十多二十分钟,直接把他家的黑板写满了,先给你抛个需求,问你怎么实现,这个时候你就要想到用拉链表去实现,他就会问你拉链表怎么制作,怎么确定拉链表的字段,你跟他扯完之后,又在拉链表的基础上再给你抛需求,继续要你实现(反正我就跟他掰扯,他一直说你这样确实可以实现,但是如果出现某某问题,那你们又是如何解决的,我人就傻了......)
- 你业务库中的数据前一天的数据发生改变,比如说用户下完单又退单了,你怎么这些改变后的数据在同步到hive中,(跟他掰扯怎么实现后,他又在后面提需求,说要要加个ETL时间字段,具体实现某个需求(这个需求忘记了),人瞬间傻了,这是拿来干嘛的......)
- 你们hive中的宽表存在哪里,字段怎么确定
- 你们的数据量是多大,就是dws层宽表的数据量
- hive和Spark的区别
九章数据那边暂时能想起来的就这么几个点,反正就是看你的简历下菜 ,一直给你需求,还有很多需求想不起来了,就一直问你需求怎么实现 看你的随机应变能力了
1121

被折叠的 条评论
为什么被折叠?



