热点问题
- 分层的好处和目的是什么?
- 为什么这样分层,为什么不选择其他分层方式?
- 维度建模如何做的?
- 数据域如何划分?
- 你在项目参与了哪些?
- 哪些情况下需要用到udf函数?
- 小文件如何治理?
- 项目数据量多大?表的大小和存量用户数据量
- 数据治理是怎么做的?
- 如何调优,数据倾斜现象和解决方式
面试实际问题 - 外包
- 公司规模怎么样
- 集市层开发都是数据部门做的吗?
- 为什么离职?
- 软通动力
- hive表跑的慢该如何优化?
- 同盾科技
- 自我介绍有点快,有点着急
- 用的是大数据框架吗?
- 数据分层的意义
- 建模是如何建模?
- 跨层访问率高不高?
- 数据加工完,下游都有哪些产品?
- 图谱有了解过吗?
- sql效率问题如何解决,跑批慢
- 薪资 期望?
- 外包
- 数据迁移如何保证离线数仓和传统数仓的数据是一致的?
- One Data为什么这样分层?这样分层的好处?ODS->DWD->DWS->ADS
- 你们开发中为什么不用其他的分层?
- 数据域如何划分?
- 分层如何做的?
- 用没用过关系型数据库?
- linux查看日志时只查看指定行是什么命令?比如1000-1100行
- 场景题1
两列 12行
列1是月份 12个月所以12行
列2是每个月的日期时间,假期就为0 工作日就位1 合并到一起了是个字符串
31天就是字段长度就是31 30天长度就是30
1 001111000000…
2 101010101000…
…
将列2平铺开来
1 假期
1 工作日
…
2 假期
2 工作日
… - 场景题2
表1 交易表 id, 币种,金额,日期 若干条数据,时间基本是连续的 不会有间断的天数
表2 汇率表 本币币种,外币币种,汇率,日期 时间不一定是连续的,如果当天两个币种的汇率没发生变化,不不会产生当
天的数据
求出交易表中每条数据换算成的人民币的金额 - 福建润楼
- 准确率和完整率的提升,过程中发现了什么,做了哪些工作?
- 介绍一下项目
- 数据错乱问题是如何查出来的?
- 如果发现了数据源为什么不选择其他数据源?
- 发现了数据源错乱问题如何解决?
- 在数据修正的过程中采取了什么方式?我参与了什么?
- 如何让领导看到正确的结果?
- 已经没有时间在修改了,如何让领导看到正确的结果?
- 数据分层的好处和目的是什么?
- 为什么建这个分层,这样的分层有什么好处?
- 维度建模怎么做的?
- 有几个库?
- 明细层有多少个表?有哪些表?
- dws层怎么建的?要说下dws指标拆分的过程,结合业务
- 指标是怎么给的数仓开发人员的?
- 你个人感觉为什么要统计7天、30天内这种周期数据?
- 开发使用什么语言?
- 哪些场景用到了自定义UDF函数?
- 当前离职状态,为什么要离职?
- 如果给我实时的需求,我能不能做?
6-1. 华为外包一面 - 架构做了哪些方面的优化?
- 分层是基于什么要分成四层?
- 端到端全链路的过程说一下?
- 数据域分几层?
- 数据治理的过程?
6-2. 华为外包二面 - 在这家公司参与了哪些工作?
- 维度层是全量还是增量拉取?
- 维度建模怎么做的?
- 原子指标、派生指标、衍生指标的区别?
7-1. 海发宝诚一面 - 为什么转到大数据开发?
- 项目的数据架构体系,担任的职责?
- 数据量多大?
- 以拒绝通过率为例,模型设计是如何设计的?(可以结合业务调研来讲)
- 拒绝通过事实表的维度是什么?有哪些字段?
- DWD主要做什么事情?
- 金融十大主题是哪十大主题?
- 合同、借据单放到哪个表里面?
- 主要做哪个集市?风控集市中的“集中度”有没有做?
- 为什么选择ORC不选择Parquet?
- 什么时候会用到udf函数?
- 遇到哪些性能问题,做过哪些优化?
- 数据倾斜是什么现象,如何解决?
- 哪个参数原理是通过负载均衡的方式解决group by的数据倾斜?
- sql题:统计一个月内每个用户最大连续登录天数
- 小文件如何治理?
- hive sql遇见通过什么来掉?
- 表以什么基准做分区?
- 动态分区配什么参数? (加上开启非严格模式)
- 导入导出数据用什么?
7-2. 海发宝诚二面 - 为什么离职?
- 为什么换城市到上海?
- 项目的技术栈是什么?
- Hive的底层执行原理?(需要说的更详细一些)
- 小文件治理如何做的?
- Yarn平台的调度原理(说的不够详细)
- 有没有了解过其他底层引擎?
- 用过cdh和cdp吗?
- 用过哪些调度平台?(对方期望小海豚)
- 用没用spark?(这里值得是spark的计算引擎)
- 当前的职业规划?
- 为什么想提升技术栈?
- 什么业务该什么技术栈清楚吗?
- 对我们公司有什么了解?
- 自己在公司做的项目让你有什么成就?
- 觉得自己的不足是什么?
- 翼海云峰
- 讲一个使用hive做的项目
- 说一下从dwd开始到最终指标的开发过程
- 说一个印象深刻最深刻的指标开发过程
- 介绍一些hive的常用的函数
- 说一下hive的调优
- 留存率指标有没有做过?按什么做的,时间间隔还是什么?
9-1. 乐博科技一面 - sql题:每个商品最近7天的销量
- 有没有用过自定函数,区别是什么?
- UDAF的实现方法?
- distinct是几个reduce?几个map?
- 如何优化distinct?
- spark有没有使用过?
- 说一下有哪些存储格式?
- ORC是纯列式存储吗?
- 说一下有哪些压缩方式?
- 使用过对象存储吗?(非HDFS得存储方式)
- 外部表和内部表的区别是什么?
- 外部表和内部表的哪个执行性能高?
- 先建了分区表,后手动在那个位置上传了数据,使用sql能否查询到?
- 有没有用过impala?
- 第三方框架如何接入hive的元数据?
- 如何连接hive的元数据?(我回答的是hiveserver2,jdbc 貌似不对)
- 什么情况下会使用拉链表?
- 分层分了几层?
- 增量更新怎么做的?
- 说一下快排的实现原理
9-2. 乐博科技二面 - 自己如何评价自己的高级工程师,比普通的多了哪些内容?
- 分层上面有什么经验?
- dws自己开发时有什么心得?
- 数据机密如何处理?
- 数据流转用的什么技术架构?
- order by和sort by有什么区别?
- hive参数上如何调优?
- hive语句上如何调优?
- 有没有实时用过flink?
- kafka和clickhouse有没有用过?
- sql题(比较简单)
- 算法题(相对麻烦,不过最后得出了最优解)