2022字节跳动【数据仓库工程师】日常实习面经-----一面

最新推荐文章于 2024-04-13 17:57:58 发布

dyson不只是吹风机

最新推荐文章于 2024-04-13 17:57:58 发布

阅读量1.6k

点赞数 2

文章标签：面试数据仓库大数据

本文链接：https://blog.youkuaiyun.com/qq_36092642/article/details/124775526

版权

文章目录

背景：今年金三银四，看着大家都在疯狂找实习offer，不甘落后的我也信心满满（毫无把握）的去字节面试（现在想想真是胆大，都还没学扎实）

一，自我介绍

二，问答阶段

shuffle阶段详细介绍
回答环形缓冲区，分区排序，溢写磁盘，reduce再抽取归并等等
计算单元和实际block存储单元不在一个机器节点上，这样会带来大量的IO操作，Hadoop如何解决
数据不用移动，移动计算逻辑，本地化策略
实际中有哪几种数据倾斜
回答的是group by，order by，其实没有回答好，面试官还给我讲解，太好了
null值特别多，且需要保留怎么处理
单独处理
一个大表和一个小表之间关联，数据倾斜怎么解决
map join
两个大表之间关联，其中一张表有3个key（已知这3个key）对应另一张表，分别一万条，十万条，百万条关联，其他的数据平均是1千条的关联，如何处理这种倾斜
这个没有思路，面试官说已经知道了哪些key倾斜，通过打散的形式将百万、十万、一万的拆分处理
基于上面那个问题，就想临时将它跑过去，不想做特殊处理，怎么办
也没思路，面试官说将内存调大
两句话去概述一下维度建模是什么
将数据抽象为事实和维度
事实表理论上分哪几种啊
事务事实表和快照事实表

三，代码阶段

SQL题1
relation表结构

字段	字段类型
from_user_id	bigint
to_user_id	bigint

说明：都是自增长且唯一，微博的关注关系表
示例

from_user_id	to_user_id	含义
1	2	表示1关注2
2	1	表示2关注1

求互相关注的关系对
不能用join ，union all ，子查询
可以用having，group by

select
    case when from_user_id>to_user_id then to_user_id else from_user_id end as from_user_id1,
    case when from_user_id>to_user_id then from_user_id else to_user_id end as to_user_id1
from
relation
group by case when from_user_id>to_user_id then to_user_id else from_user_id end,
case when from_user_id>to_user_id then from_user_id else to_user_id end
having count(concat(from_user_id1,to_user_id1))=2

这个题没想出来，唉

SQL题2
bind表结构

字段	字段类型
user_id	bigint
bind_obj	string
date	bigint 时间戳10位

求每个user_id最早绑定的bind_obj以及绑定时间

select
    user_id,
    split(min_date_bind_obj,"_")[1] bind_obj,
    split(min_date_bind_obj,"_")[0] date
from
(
    select
        user_id,
        min(concat(date,"_",bind_obj)) min_date_bind_obj
    from
        bind
    group by 
        user_id
)t1

SQL题2
登陆日志login表结构

字段	字段类型
user_id	bigint
login_date	string

示例

user_id	login_date
1	2021-01-01
1	2021-01-02
1	2021-01-03
1	2021-01-05
1	2021-01-06
1	2021-01-07
1	2021-01-08
1	2021-01-09

每个用户连续登陆最大天数，开始时间和结束时间

select
    user_id,
    min_login_date,
    max_login_date,
    max(login_days) max_login_days
from
(
    select
        user_id,
        sub_time,
        max(login_date) max_login_date,
        min(login_date) min_login_date,
        count(login_date) login_days
    from
    (
        select
            user_id,
            login_date,
            date_sub(login_date,rank) sub_time
        from
        (
            select
                user_id,
                login_date,
                (row_number() over(partition by user_id order by login_date))-1 rank
            from
                login
        )t1
    )t2
    group by 
        user_id,sub_time
)t3
group by
    user_id,
    max_login_date,
    min_login_date