
大数据面试
文章平均质量分 80
潘小磊
功不唐捐,玉汝于成
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
高频面试之14Redis
Redis作为高性能缓存系统,主要面临缓存穿透、雪崩和击穿问题,可通过空对象缓存、布隆过滤器、分散失效时间等方法解决。其哨兵模式实现主从自动切换,支持五种数据类型。热数据导入可采用LRU策略延长TTL,持久化有RDB和AOF两种方式,建议同时开启。虽然Redis本身是键值存储,但Hash类型特别适合存储关系型对象,提供更灵活的数据结构。这些特性使Redis广泛应用于缓存、会话管理等场景。原创 2025-06-16 10:04:58 · 728 阅读 · 0 评论 -
高频面试之13 Clickhouse
Clickhouse数据库核心特性与应用实践Clickhouse是一款高性能列式数据库,其核心优势在于速度快,原因包括向量化处理、列式存储、本地化计算以及丰富的优化引擎等。主要表引擎包括Log、Special、MergeTree系列和集成引擎。针对Flink写入的一致性,可通过ReplacingMergeTree引擎实现最终一致。在实际应用中,采用本地表而非分布式表以避免写入问题,存储方案设计为10多张宽表,年数据量约11TB。性能优化涵盖内存、CPU配置调整,物化视图和Projection新特性的应用原创 2025-06-13 15:40:49 · 742 阅读 · 0 评论 -
高频面试之12 HBase
HBase存储架构与核心机制解析摘要:HBase作为分布式列式数据库,其架构包含HMaster(元数据管理、负载均衡)、RegionServer(数据处理执行)、Zookeeper(高可用支持)和HDFS(底层存储)四大组件。核心流程方面,写操作需经历元数据读取、WAL写入等步骤;读操作涉及MemStore、StoreFile和BlockCache多级查询。优化策略包括:RowKey设计三原则(长度、散列、唯一),通过ID反转解决热点问题;两种合并机制(Minor/Major Compaction);二级原创 2025-06-13 15:15:21 · 835 阅读 · 0 评论 -
高频面试之11Flink
Flink基础架构由JobManager、TaskManager和Client组成,支持流式计算和多种时间语义。与Spark Streaming相比,Flink提供更灵活的事件处理、窗口操作和状态管理。其任务提交流程涉及多个组件协作,支持多种部署模式。Flink通过Watermark机制处理乱序数据,窗口分类丰富,包含滚动、滑动和会话窗口等。资源配置需根据任务特性调整并行度,并关注Slot共享组优化。整体上,Flink以低延迟、高吞吐和精准的状态管理优势,成为现代流处理的重要框架。原创 2025-06-13 11:36:48 · 1221 阅读 · 0 评论 -
高频面试之10 Spark Core & SQL
【摘要】本文系统梳理了Spark核心概念与关键技术要点,主要包括:1)Spark运行模式(Local/Yarn/Standalone等)及常用端口说明;2)RDD五大特性和弹性机制;3)转换/行动算子分类与典型API对比(如map/mapPartitions、reduceByKey/groupByKey);4)任务执行流程(DAG划分、Shuffle机制和内存管理);5)性能优化策略(如repartition/coalesce选择、减少数据库连接数);6)与MapReduce的核心差异(内存计算、DAG优化原创 2025-06-13 10:56:08 · 788 阅读 · 0 评论 -
高频面试之9 DolphinScheduler调度器
1.3.9版本,支持邮件、企业微信。2.0.3版本,支持的报警信息更全一些,配置更容易。3.0.0以上版本,支持数据质量监控。原创 2025-06-13 09:22:26 · 229 阅读 · 0 评论 -
高频面试之8 Maxwell
本文对比了FlinkCDC、Maxwell和Canal三种实时数据同步工具的特性差异,重点分析了Maxwell的优势包括断点续传、全量数据初始化和自动数据分发功能。文章还探讨了Maxwell的底层MySQL主从复制原理,指出其全量同步速度较慢,建议使用Sqoop/DataX替代,并解释了Maxwell在同步历史数据时可能出现的数据重复问题机制。原创 2025-06-13 09:19:04 · 187 阅读 · 0 评论 -
高频面试之7 Datax
本文对比了DataX和Sqoop两大离线数据同步工具的特点差异,重点分析了DataX的性能优化方法。DataX采用单进程多线程架构,支持插件化开发,对多种数据源兼容性更好。文章详细介绍了DataX的三大优化方向:速度控制(通过并发数和限速参数调节)、内存调整(建议4G-8G配置)以及空值处理(MySQL与Hive间的null值转换方案)。同时提供了配置文件生成脚本和实际业务场景下的数据量估算(日均全量1-2GB,增量1-2GB),并说明了通过SQL时间过滤实现增量同步的具体方法。这些实践总结为大数据环境下的原创 2025-06-13 09:09:21 · 1037 阅读 · 0 评论 -
高频面试之6Hive
Hive大数据处理框架核心解析Hive作为Hadoop生态系统中的数据仓库工具,其架构基于HDFS存储和MapReduce计算框架。HQL查询语言通过解析器、语义分析器等组件转换为MR任务执行流程。与数据库相比,Hive更适合大规模数据处理,但延迟较高。关键特性包括:表类型:内部表删除元数据和数据,外部表只删元数据丰富函数库:数值、字符串、日期、流程控制等系统函数窗口函数:支持分组TopN、行转列等复杂分析场景自定义函数:UDF用于简单计算,UDTF处理一行多行转换优化手段主要有:分组原创 2025-06-11 17:11:46 · 1124 阅读 · 0 评论 -
高频面试之5Kafka
Kafka采用生产者-Broker-消费者-Zookeeper架构,Zookeeper仅保存Broker元数据。生产端提供三种分区策略:默认、粘性和轮询分区器,支持自定义实现。数据可靠性保障方面,生产端通过acks参数控制应答级别,服务端需设置副本数≥2和最小同步副本≥2。原创 2025-06-11 15:15:55 · 1310 阅读 · 0 评论 -
高频面试之4Flume
Flume核心组成包括Taildir Source(支持断点续传)、Channel(File/Memory/Kafka三种类型)和HDFS Sink。事务机制分为Put(Source→Channel)和Take(Channel→Sink)。关键优化点包括:原创 2025-06-09 14:25:08 · 475 阅读 · 0 评论 -
高频面试之3Zookeeper
本文总结了Zookeeper的核心知识点,包括:常用操作命令:ls、get、create、delete等选举机制 - 采用半数机制(2n+1),建议安装奇数台服务器遵循CAP理论中的CP原则(一致性和分区容错性)通过过半选举机制有效防止脑裂问题主要应用场景:作为HDFS/YARN等HA方案的协调者,以及被Kafka、HBase等组件依赖原创 2025-06-09 11:10:24 · 325 阅读 · 0 评论 -
高频面试之2Hadoop
Leader出现故障,系统开始改朝换代,当Follower完成全部工作并且成为Leader后,原Leader又复活了(它的故障可能是暂时断开或系统暂时变慢,不能及时响应,但其NameNode进程还在),并且由于某种原因它对应的ZKFC并没有把它设置为Standby,所以原Leader还认为自己是Leader,客户端向它发出的请求仍会响应,于是脑裂就发生了。业务部门1(重要)=》业务部门2(比较重要)=》下单(一般)=》购物车(一般)=》登录注册(次要):支持多队列,保证每个任务公平享有队列资源。原创 2025-06-09 10:22:15 · 704 阅读 · 0 评论 -
高频面试之Linux&Shell
本文总结了Linux和Shell的高频面试知识点。Linux部分列举了7个常用高级命令,包括top、jmap、free、ps等系统监控命令。Shell部分介绍了常用工具(awk/sed等),并展示了两个典型脚本案例:集群启停脚本和数仓数据导入脚本。重点分析了Shell中单引号、双引号和反引号的区别:单引号不解析变量,双引号解析变量,反引号执行命令。通过test.sh脚本演示了不同引号处理变量的效果,为Shell编程中的引号使用提供了明确指导。原创 2025-06-09 09:32:44 · 167 阅读 · 0 评论