腾讯大数据开发面试题及参考答案(4万字长文-持续更新)

目录

数仓为什么要分层?

数据仓库都分哪几层?

简单介绍一下 Mapreduce 工作原理?

Hdfs 的读数据流程了解吗?

Hdfs 的写操作呢?

Zookeeper的选举过程

Zookeeper节点类型说一下

Zookeeper选举机制?

Zookeeper主节点故障,如何重新选举?

Spark 为什么比 MapReduce 快?

Spark 任务执行流程?

Spark 用过的解决数据倾斜的方案说一下?

Flink 的四大基石都有哪些?

watermark 的作用是啥?如何保证数据不丢失?

Flink 如何保证 Exactly Once 语义?

Flink 如何实时 topN?

标记清除算法的过程,标记清楚算法如何给对象分配内存空间?

缓存穿透,怎么解决?

负载均衡算法,实现;

轮询和随机的缺点;

分布式服务治理;

dns迭代和递归的区别;

线程池的核心参数;

threadlocal的实现,原理,业务用来做什么?

Flume Sink中使用什么类型?HDFS Sink如何处理小文件?

left join和right join的区别

map算子和mapPartitions算子有什么异同?

spark广播变量什么情况下使用

spark内存管理模型,RDD的数据都会出现在哪里

简单介绍一下 Mapreduce 工作原理

Hdfs 的读数据流程了解吗?

Hdfs 的写操作呢?

zookeeper的选举过程

Spark 为什么比 MapReduce 快?

Spark 任务执行流程

Spark 用过的解决数据倾斜的方案说一下

Flink 的四大基石都有哪些

watermark 的作用是啥?如何保证数据不丢失?

Flink 如何保证 Exactly Once 语义

Flink 如何实时 topN?

Kafka怎么保证消费顺序正确

Kafka怎么保证数据不丢失

操作系统线程进程区别

介绍一下Java的反射

获取Class对象的常见方式:

反射的应用场景:

使用反射的注意事项:

介绍一下MySQL引擎

MySQL引擎的选择:

MyISAM引擎什么时候用

讲一下垃圾回收

Java垃圾回收的基本原理:

垃圾回收的触发条件:

垃圾回收的影响:

讲一下集合

Java集合框架的主要组成部分:

常见的集合实现:

集合的选择:

讲一下HashMap

HashMap的基本原理:

HashMap的特点:

HashMap的内部实现:

使用HashMap时的注意事项:

YARN的设计思路是什么

YARN的设计目标:

YARN的架构:

YARN的工作流程:

HBase读取和写入的过程

HBase写入过程:

HBase读取过程:

特点:

LSM相对于B+树优化了哪块? 优化了写入

B+树的特点:

LSM树的特点:

LSM树相对于B+树的优化:

lsm 设计内存部分的目的是什么

hfile为何要去合并

如何做到region的热拆分

lsm树的优势

calcite如何做到sql语句转换为物理执行计划

flink checkpoint和savepoint的区别

b和b+树对比 innodb为何用b+树

kafka topic和partition关系

MR是否所有的map进行之后才能进行reduce

synchronized和lock区别

让线程阻塞的方法

让java程序结束的方法

HashMap和Hashtable区别,ConcurrentHashMap底层

为什么Java类加载要使用双亲委派模型?

详细讲数据库四大特性

详细讲数据库索引

详细讲数据库最左匹配原则

Java里你自己怎么实现栈、队列、HashMap

栈实现

队列实现

HashMap实现

GC算法有哪些?

新生代对象怎样进入老年代?

了解哪些设计模式

Python怎样实现单例模式

Python深拷贝和浅拷贝

进程并发和线程并发

进程间有哪些通信方式?进程怎样共享内存?

僵尸进程是怎么出现的?

Linux怎样查看后台进程?要筛选的话怎么做?怎样修改文件权限?怎样查看磁盘状态?

TDP、UDP的区别

HTTP底层可以用UDP实现吗?用UDP实现的话有什么好处?

可以用 UDP 实现吗?

使用 UDP 的潜在好处:

HTTP有哪些状态码?

成功(2xx)

重定向(3xx)

客户端错误(4xx)

服务器错误(5xx)

SQL 实现:三个字段 dt、订单号、订单金额,要求每日总金额、环比上周同日增长金额、同比去年同日增长金额

9*ABCD=DCBA,每个字母表示一个数字,问ABCD分别是多少

用Java代码实现下面编程题:实现a的n次方,a和n是整数,不能调用现有的函数。时间复杂度是多少?有没有更快的方法?

时间复杂度分析

更快的方法

总结


数仓为什么要分层?

  1. 数据仓库分层的原因
    • 结构清晰便于理解
      • 数据仓库存储了大量来自不同数据源的数据,这些数据种类繁多且关系复杂。通过分层,可以将数据按照不同的功能和用途进行划分,使整个数据仓库的结构更加清晰。例如,将原始数据放在最底层,经过清洗、转换后的中间数据放在中间层,最终面向业务分析的数据放在最上层。就像整理书籍一样,把不同类型(如小说、教材、传记等)的书籍放在不同的书架层,方便用户查找和理解。
    • 提高数据质量
      • 在分层的过程中,可以对数据进行
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型大数据攻城狮

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值