大数据处理与分层建模面试问题概览-优快云博客

热点问题

分层的好处和目的是什么？
为什么这样分层，为什么不选择其他分层方式？
维度建模如何做的？
数据域如何划分？
你在项目参与了哪些？
哪些情况下需要用到udf函数？
小文件如何治理？
项目数据量多大？表的大小和存量用户数据量
数据治理是怎么做的？
如何调优，数据倾斜现象和解决方式
面试实际问题
外包
公司规模怎么样
集市层开发都是数据部门做的吗？
为什么离职？
软通动力
hive表跑的慢该如何优化？
同盾科技
自我介绍有点快，有点着急
用的是大数据框架吗？
数据分层的意义
建模是如何建模？
跨层访问率高不高？
数据加工完，下游都有哪些产品？
图谱有了解过吗？
sql效率问题如何解决，跑批慢
薪资期望？
外包
数据迁移如何保证离线数仓和传统数仓的数据是一致的？
One Data为什么这样分层？这样分层的好处？ODS->DWD->DWS->ADS
你们开发中为什么不用其他的分层？
数据域如何划分？
分层如何做的？
用没用过关系型数据库？
linux查看日志时只查看指定行是什么命令？比如1000-1100行
场景题1
两列 12行
列1是月份 12个月所以12行
列2是每个月的日期时间，假期就为0 工作日就位1 合并到一起了是个字符串
31天就是字段长度就是31 30天长度就是30
1 001111000000…
2 101010101000…
…
将列2平铺开来
1 假期
1 工作日
…
2 假期
2 工作日
…
场景题2
表1 交易表 id, 币种，金额，日期若干条数据，时间基本是连续的不会有间断的天数
表2 汇率表本币币种，外币币种，汇率，日期时间不一定是连续的，如果当天两个币种的汇率没发生变化，不不会产生当
天的数据
求出交易表中每条数据换算成的人民币的金额
福建润楼
准确率和完整率的提升，过程中发现了什么，做了哪些工作？
介绍一下项目
数据错乱问题是如何查出来的？
如果发现了数据源为什么不选择其他数据源？
发现了数据源错乱问题如何解决？
在数据修正的过程中采取了什么方式？我参与了什么？
如何让领导看到正确的结果？
已经没有时间在修改了，如何让领导看到正确的结果？
数据分层的好处和目的是什么？
为什么建这个分层，这样的分层有什么好处？
维度建模怎么做的？
有几个库？
明细层有多少个表？有哪些表？
dws层怎么建的？要说下dws指标拆分的过程，结合业务
指标是怎么给的数仓开发人员的？
你个人感觉为什么要统计7天、30天内这种周期数据？
开发使用什么语言？
哪些场景用到了自定义UDF函数？
当前离职状态，为什么要离职？
如果给我实时的需求，我能不能做？
6-1. 华为外包一面
架构做了哪些方面的优化？
分层是基于什么要分成四层？
端到端全链路的过程说一下？
数据域分几层？
数据治理的过程？
6-2. 华为外包二面
在这家公司参与了哪些工作？
维度层是全量还是增量拉取？
维度建模怎么做的？
原子指标、派生指标、衍生指标的区别？
7-1. 海发宝诚一面
为什么转到大数据开发？
项目的数据架构体系，担任的职责？
数据量多大？
以拒绝通过率为例，模型设计是如何设计的？（可以结合业务调研来讲）
拒绝通过事实表的维度是什么？有哪些字段？
DWD主要做什么事情？
金融十大主题是哪十大主题？
合同、借据单放到哪个表里面？
主要做哪个集市？风控集市中的“集中度”有没有做？
为什么选择ORC不选择Parquet？
什么时候会用到udf函数？
遇到哪些性能问题，做过哪些优化？
数据倾斜是什么现象，如何解决？
哪个参数原理是通过负载均衡的方式解决group by的数据倾斜？
sql题：统计一个月内每个用户最大连续登录天数
小文件如何治理？
hive sql遇见通过什么来掉？
表以什么基准做分区？
动态分区配什么参数？（加上开启非严格模式）
导入导出数据用什么？
7-2. 海发宝诚二面
为什么离职？
为什么换城市到上海？
项目的技术栈是什么？
Hive的底层执行原理？（需要说的更详细一些）
小文件治理如何做的？
Yarn平台的调度原理（说的不够详细）
有没有了解过其他底层引擎？
用过cdh和cdp吗？
用过哪些调度平台？（对方期望小海豚）
用没用spark？（这里值得是spark的计算引擎）
当前的职业规划？
为什么想提升技术栈？
什么业务该什么技术栈清楚吗？
对我们公司有什么了解？
自己在公司做的项目让你有什么成就？
觉得自己的不足是什么？
翼海云峰
讲一个使用hive做的项目
说一下从dwd开始到最终指标的开发过程
说一个印象深刻最深刻的指标开发过程
介绍一些hive的常用的函数
说一下hive的调优
留存率指标有没有做过？按什么做的，时间间隔还是什么？
9-1. 乐博科技一面
sql题：每个商品最近7天的销量
有没有用过自定函数，区别是什么？
UDAF的实现方法？
distinct是几个reduce？几个map？
如何优化distinct？
spark有没有使用过？
说一下有哪些存储格式？
ORC是纯列式存储吗？
说一下有哪些压缩方式？
使用过对象存储吗？（非HDFS得存储方式）
外部表和内部表的区别是什么？
外部表和内部表的哪个执行性能高？
先建了分区表，后手动在那个位置上传了数据，使用sql能否查询到？
有没有用过impala？
第三方框架如何接入hive的元数据？
如何连接hive的元数据？（我回答的是hiveserver2，jdbc 貌似不对）
什么情况下会使用拉链表？
分层分了几层？
增量更新怎么做的？
说一下快排的实现原理
9-2. 乐博科技二面
自己如何评价自己的高级工程师，比普通的多了哪些内容？
分层上面有什么经验？
dws自己开发时有什么心得？
数据机密如何处理？
数据流转用的什么技术架构？
order by和sort by有什么区别？
hive参数上如何调优？
hive语句上如何调优？
有没有实时用过flink？
kafka和clickhouse有没有用过？
sql题（比较简单）
算法题（相对麻烦，不过最后得出了最优解）