顺丰
没有问业务
- javaJVM的优化
- 你了解有哪些算法吗(然后换了个说法,说你了解有哪些排序算法)
- 链表结构了解吗
- 平衡二叉树了解吗
- kafka的ack
- kafka怎么保证精准一次消费
- kafka支持事务吗
- hql熟吗
- 内部表和外部表有什么区别,什么时候使用内部表,什么时候使用外部表
- 你们在使用hql的时候做了哪些优化
- 你们的数据量有多大
- 你们有采用分区吗
- 你们的分区策略
- 分区太多和太少有什么问题
- 你跑的最慢的一个查询是多久
- 你在写hql的时候有没有做过什么优化
- 有没有遇到什么问题
- join时数据类型不一致为什么会产生数据倾斜
- sqoop参数
- sqoop遇到了哪些问题
- spark怎么保证数据一致性
- spark怎么实现高可用
- 你们的数仓搭建原理(还是啥,有点忘了)
- hadoop用的哪个版本
- hive用的哪个版本
- 你有哪些优势
- 你们实时用的什么?(只是简单问了下,我回flink就没问了)
他们要找做离线的,目前没有实时需求
然后礼貌性的问了下你有什么要问的吗
虾皮shopee
- java 的锁了解么?公平锁、非公平锁,偏向锁和非偏向锁?(纳尼?)
- volatile关键字了解么?怎么用的?主存是怎么存的?那对应的非主存是怎么处理的?(??)
- 说说零拷贝的原理?详细的说下
- 计算机原理的一些内容、为什么要分用户态和core?
- https的通信机制?怎么建立连接的?(好像是这么问的)
- 信息编码的意义?
- SQL的预编译的处理的底层原理了解么?
- 为什么C/C+ 用来写ClickHouse、redis、Zookeeper这些组件?和java有什么区别?你怎么看待
- 说说内部排序算法的时间、空间复杂度和对应的稳定性。(没说全,有点遗忘)
- HBase的读流程(原话忘记了,意思是问这个),大表的写入,你们遇到的热点key的场景?怎么解决的?(分区)
- redis的缓存击穿、缓存雪崩、缓存失效是什么意思和如何处理?
- 布隆过滤器原理和kafka 为什么快这些?
- 内部表和外部表的区别?分桶表的原理?一些简单的优化
- HQL的处理流程,B+树和LSM的区别?分别讲讲他们的特点?为什么MySQL用B+树,HBase用LSM?
- 你们数仓的建模?(对应每层的处理)
- 留存率你从ods到ads说下各层都怎么处理获取的?最终的SQL要能用语言表述清除?(建议结合自己的业务)
- 如何快速从mysql导数据?离线:sqoop 实时:CDC
- kafka 的producer/consumer 可能会出现的问题?丢和重复,怎么避免,怎么解决?
- scala的val和var 各自的优缺点?为什么用val?场景设计一堆
- scala 常见的集合?(可变和不可变)
- scala option的底层原理是怎么设计和实现的有了解吗?
- flink的精准一次性,两次事务详细说说
- flink对于多个流的join是如何保证同时处理到的?(多个流启动总会有,不能保证流是同时到的,总有流的数据晚到了,怎么保证都能join上)(突然问蒙了,水印?状态?)
- 很有其他flink窗口相关的问题,具体的有点忘记了,就是各种异常场景和大状态的问题
- 一小时的数据IP,(数据量很大,)怎么得到top10?(只说方案和具体的实现,不敲代码)
flink有些内容有点没回答好,java相关的JUC和LSM忘记了。
视野数科
- IK分词器有几种分词模式
- Flink双流join会遇到什么问题是怎么处理的
- Flink异步I/o是怎么做的,怎么实现的
- Flink介绍开窗函数
- 对clickhouse引擎有了解吗
- Nginx是怎么配置的
- Phoenix对hbase建索引有几种方式及区别
- spark 和flink 的checkpoint的区别
- spark submit提交任务会用到那些参数
- 对于堆内和堆外内存如何了解
- udf udtf udaf 函数都有什么区别
- 怎么在hive上使用自定义函数
- 自定义函数上传的命令是什么
1110

被折叠的 条评论
为什么被折叠?



