
大数据技术体系
文章平均质量分 79
主要以Hadoop体系和Spark体系为主,主流的大数据技术框架都会涉及,其中Hadoop体系只会涉及到入门知识,由于笔者主修 Spark,故Spark体系会涉及到更底层。
Shockang
我是Shockang,AI进化比我喝咖啡还快,程序员危机UP!不想被取代,就抱紧读书救命稻草,还能一起边学边吐槽,欢迎来玩!
展开
-
大数据技术体系(长期更新)
2018~2021 年期间,笔者阅读了200+大数据相关的书籍和专栏。本专栏为笔者,在多年读书笔记的基础上,结合自身的大数据开发心得体会,呕心沥血之作。原创 2021-05-25 23:15:51 · 33311 阅读 · 54 评论 -
Apache Flink技术原理深入解析:任务执行流程全景图
深入剖析Flink从StreamGraph到物理执行的全流程转换机制,揭秘算子链优化、调度策略与Slot分配的内部原理。通过源码级解析与可视化图表,帮您理解Flink性能背后的核心机制,提供实用优化建议,让您的Flink应用性能提升数倍!原创 2025-03-22 23:25:48 · 754 阅读 · 0 评论 -
Flink CEP:复杂事件处理详解
深入剖析Flink CEP核心原理与工作机制,配合精美流程图与完整代码示例,从模式定义到实战应用全方位讲解。无论是风控监测、行为分析还是异常检测,本文助您快速掌握这一高性能实时处理利器,让复杂事件识别变得简单高效!原创 2025-03-21 22:10:43 · 848 阅读 · 0 评论 -
Flink SQL 技术原理详解
深入解析Flink SQL执行全过程!本文通过精美流程图详解SQL从解析到执行的五大核心阶段,揭秘Calcite优化引擎如何提升查询性能,剖析批流一体处理的技术原理。无论你是Flink新手还是老手,都能从这份完整技术指南中获取实用知识,提升你的流处理应用开发能力!原创 2025-03-18 22:48:17 · 827 阅读 · 0 评论 -
Flink 环境对象
本文全面介绍了Flink中的三种核心环境对象——执行环境、运行时环境和运行时上下文,它们在Flink应用开发和执行过程中发挥着重要作用。文章深入剖析了每种环境对象的功能定位、实现原理和使用场景,让读者全方位了解Flink环境对象的设计思想和应用价值。通过具体案例,还讲解了环境对象之间的协作关系,以及在作业开发和任务执行时的具体应用,帮助读者快速掌握Flink环境对象的精髓。原创 2023-09-16 09:37:44 · 729 阅读 · 0 评论 -
Flink DataStream 体系
本文介绍了基于流的分布式计算引擎 Flink 中的数据流概念及相关操作。数据流是Flink的核心数据抽象,类似于Apache Beam中的PCollection。本文详细解释了DataStream、DataStreamSource、DataStreamSink、KeyedStream、WindowedStream、ConnectedStreams等不同类型的数据流,以及它们在大数据处理中的作用和用途。这些概念对于理解Flink的核心机制、优化数据处理流程以及满足特定业务需求至关重要。原创 2023-09-11 15:52:59 · 793 阅读 · 0 评论 -
Hadoop 集群如何升级?
本文提供了详细的升级步骤和注意事项,帮助用户顺利升级Hadoop集群,并保护数据的安全性。原创 2023-06-23 21:45:43 · 3894 阅读 · 2 评论 -
ZooKeeper 的架构是怎样的?
本文详解了 ZooKeeper 的相关知识,包括其架构、通信方式等。本文包含 ZooKeeper 的架构图,并对其进行了详细的描述。同时还画出了ZooKeeper 中 Leader/Follower/Observer 之间的通信流程图,并对其进行了简要的解释。原创 2023-06-11 01:30:41 · 1913 阅读 · 0 评论 -
Hadoop 怎么委任和解除节点?
Hadoop 集群的管理员经常需要向集群中添加节点,或从集群中移除节点。例如,为了扩大存储容量,需要委任节点。相反的,如果想要缩小集群规模,则需解除节点。如果某些节点表现反常,例如故障率过高或性能过于低下,则需要解除该节点。通常情况下,节点同时运行 DataNode 和 NodeManager,因而两者一般同时被委任或解除。原创 2023-06-06 22:29:39 · 772 阅读 · 0 评论 -
HBase 的关键流程解析
本文主要介绍了 HBase 中 Region 的分配、RegionServer 的上下线、Master 的上下线等相关内容。其中,Region 只能分配给一个 RegionServer,Master 通过 Zookeeper 来跟踪 RegionServer 状态,当 RegionServer 上线或下线时,Master 会相应地进行处理。Master 下线仅导致所有元数据的修改被冻结,对整个 HBase 集群没有影响。在 HBase 中,更新是不断追加的操作,处理读请求时需要访问 Store 中全部的 S原创 2023-06-01 14:46:24 · 789 阅读 · 0 评论 -
分布式对象存储——Apache Hadoop Ozone
Ozone是Apache Hadoop项目的子项目,是一个基于**对象存储**的分布式文件系统。其主要目标是提供一个高可用性、可扩展性和高性能的存储解决方案,支持大数据分析和处理应用。Ozone 是 Hadoop 的分布式对象存储系统,具有易扩展和冗余存储的特点。Ozone 不仅能存储数十亿个不同大小的对象,还支持在容器化环境(比如 Kubernetes)中运行。原创 2023-03-05 22:36:48 · 2063 阅读 · 1 评论 -
StarRocks 建表指南
Star Rocks表中的数据分为key与value在上面例子中,三种模型都使用了(siteid, city, username) 作为表的排序键(key)。排序列的定义必须出现在建表语句中其他列的定义之前。排序列的顺序可以是(siteid, city),或者是(siteid, city, username),但不能是(city,username)或者是(siteid, city, pv)排序列的顺序是由CREATE TABLE中的顺序决定的。原创 2023-02-05 23:58:55 · 10535 阅读 · 1 评论 -
一篇文章了解 StarRocks
- StarRocks 是新一代极速全场景 MPP 数据库。- StarRocks 充分吸收关系型 OLAP 数据库和分布式存储系统在大数据时代的优秀研究成果,在业界实践的基础上,进一步改进优化、升级架构,并增添了众多全新功能,形成了全新的企业级产品。- StarRocks 致力于构建极速统一分析体验,满足企业用户的多种数据分析场景,支持多种数据模型(明细模型、聚合模型、更新模型),多种导入方式(批量和实时),支持导入多达10000列的数据,可整合和接入多种现有系统(Spark、Flink、Hive、原创 2023-01-09 00:30:50 · 2111 阅读 · 0 评论 -
一篇文章搞懂 Apache YARN 的 NodeManager 热重启
NM 重启是一项功能,可以重新启动 NodeManager 而不会丢失在节点上运行的容器。 当 NM 处理请求时,它将任何必要的状态同步地存储到状态存储器中。 当 NM 重新启动时,它通过加载各种子系统的状态来恢复正常工作。原创 2023-01-09 00:03:20 · 993 阅读 · 0 评论 -
一篇文章了解 Apache Druid
# 前言本文隶属于专栏《大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!> 本专栏目录结构和参考文献请见[大数据技术体系](https://blog.youkuaiyun.com/Shockang/article/details/117266839)---# 概述原创 2022-12-18 23:10:42 · 747 阅读 · 0 评论 -
一篇文章搞懂 Apache Kylin 的 Cube 优化
本文隶属于专栏《大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!> 本专栏目录结构和参考文献请见[大数据技术体系](https://blog.youkuaiyun.com/Shockang/article/details/117266839)---# Cube 优化 Apache Kylin 的核心思想是根据用户的数据模型和查询样式对数据进行预计算,并在查询时直接利用预计算结果返回查询结果。Apache Kylin 具有响应时间快、查询时资源需原创 2022-12-11 23:50:19 · 574 阅读 · 0 评论 -
一篇文章学会调优 ClickHouse
本文隶属于专栏《大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!ClickHouse 的通用优化配置如下表所示,大部分配置需要根据线上实际楼况进行优化,具体需要优化的配置可参考官方文档:https://clickhouse.tech/docs/en/operations/settings/query-complexityhttps://clickhouse.tech/docs/en/operations/settings/用户在查询数据时,可以参考如下几点对 SQ原创 2022-12-04 23:46:59 · 1727 阅读 · 0 评论 -
ClickHouse 的 MergeTree 引擎读写流程
MergeTree 数据写人流程单机写入流程MergeTree 只能按分区聚合数据,当每一批数据落盘时,都会生成一个新的分区目录,属于相同分区的目录会依照规则合并到一起,然后按照设置的表属性 index_granularity ,会分别生成一级素引文件 、二级素引文件、每一列宇段的.mrk 数据标记文件和 .bin 数据文件。多机 Shard 写人流程多机 Shard 写人一般有以下两种方案...原创 2022-11-27 23:59:33 · 1044 阅读 · 0 评论 -
Apache Hive 的 SQL 执行架构
本文介绍 Apache Hive 如何将 SQL 转化为 MapReduce 任务,整个编译过程可以分为六个阶段...原创 2022-11-20 21:32:17 · 1060 阅读 · 0 评论 -
HBase 常见问题总结(一)
问题一:业务表出现大量空Region问题二:业务 HBase 客户端 RPC 连接异常关闭问题三:单台 RegionServer 的 I/O 使用率一直为100%,HBase 集群请求量为0原创 2022-11-13 23:32:19 · 1515 阅读 · 0 评论 -
Apache Kylin 4.0.2 集群模式安装部署指南
本文详解了 Apache Kylin 4.0.2 版本集群模式是如何安装部署的,包括构建引擎的高可用配置以及服务自主发现机制的配置。原创 2022-10-23 23:07:11 · 1746 阅读 · 0 评论 -
Apache Kylin 3.x 的 Cube 构建流程
Cube 的构建方式通常有两种:**全量构建和增量构建**,两者的构建步骤是完全一样的,区别只在于构建时读取的数据源是全集还是子集。本文详解了Cube 的构建步骤。原创 2022-10-16 23:58:31 · 487 阅读 · 0 评论 -
Apache Doris 安装部署指南
Apache Doris 的安装部署文档,非常适合新手第一次安装部署 Apache Doris,不仅包括 FE、BE 的部署,也包括检查和 WEB UI 的使用,以及一个 DEMO 用例的展示。原创 2022-10-02 20:37:12 · 3436 阅读 · 1 评论 -
Apache Doris 技术调研
Apache Doris 的技术调研(包含 PPT),适合一些数据开发、架构师或者决策人员来决定是否引入 Apache Doris,包含 Apache Doris 的简单介绍、发展历程、优劣势,和主流的 OLAP 引擎的对比,以及笔者的一些个人建议。原创 2022-09-26 23:10:02 · 7100 阅读 · 2 评论 -
Apache Iceberg 是什么?
Apache Iceberg 是一种用于庞大分析数据集的开放表格式,Iceberg 使用类似于 SQL 表的高性能表格式为计算引擎添加了表,包括 Spark、Trino、PrestoDB、Flink、Hive 和 Impala。原创 2022-09-13 12:20:31 · 2353 阅读 · 0 评论 -
Apache Hudi 是什么?
Apache Hudi 是下一代的实时计算数据湖平台,它在自助的数据存储层上通过增量的数据管道来构建实时计算数据湖,同时也优化了数据湖引擎和离线计算原创 2022-09-13 02:38:13 · 2125 阅读 · 0 评论 -
Delta Lake 是什么?
Delta Lake 是一个开源项目,它可以运行在你现有的数据湖之上,可以在数据湖上构建湖仓一体架构,并且与 Apache Spark API 完全兼容。原创 2022-09-11 13:37:30 · 4368 阅读 · 1 评论 -
Apache Ranger 的架构是怎样的?
首先,让我们列出Ranger中的所有组件:- Ranger 管理服务器/门户(Ranger Admin Server/Portal)- Ranger 策略服务器(Ranger Policy Server)- Ranger 插件(Ranger Plugins)- Ranger 用户/组同步(RaRanger管理服务器/门户Ranger策略服务器游侠插件Ranger用户/组同步游侠标签同步Ranger审计服务器以下是一个不错的架构图,显示了每个组件之间的关系:......原创 2022-08-29 00:00:00 · 1299 阅读 · 0 评论 -
Apache Atlas 是什么?
Apache Atlas 是一个开源的元数据管理和数据治理工具,使数据团队能够从多个数据源摄取、发现、编目、分类和管理数据资产原创 2022-08-28 23:54:43 · 2558 阅读 · 0 评论 -
Apache Ranger 是什么?
Apache Ranger 是一个在整个 Hadoop 平台上启用、监控和管理全面数据安全的框架。原创 2022-08-28 23:52:50 · 944 阅读 · 0 评论 -
哪些原因可能会导致 HBase 的 RegionServer 宕机?
HBase 系统中主要有两类服务进程: Master 进程以及 RegionServer 进程。Master 主要负责集群管理调度,在实际生产线上并没有非常大的压力,因此发生软件层面故障的概率非常低。 RegionServer 主要负责用户的读写服务,进程中包含很多缓存组件以及与 HDFS 交互的组件,实际生产线上往往会有非常大的压力,进而造成的软件层面故障会比较多。原创 2022-08-21 23:32:43 · 1167 阅读 · 0 评论 -
Paxos 算法详解
在 Paxos 算法里,我们把每一个要写入的操作,称之为**提案(Proposal)**。接受外部请求,要尝试写入数据的服务器节点,称之为**提案者(Proposer)**,比如说,我们可以让一组服务器里面有 5 个提案者,可以接受外部的客户端请求。在 Paxos 算法里,并不是提案者一旦接受到客户端的请求,就决定了接下来的操作和结果的,而是有一个异步协调的过程,在这个协调过程中,只有获得多数通过的请求才会被选择。原创 2022-08-21 22:50:11 · 3050 阅读 · 0 评论 -
Maxwell 是什么?
Maxwell 是一个**能实时读取 MySQL 二进制日志 binlog** ,并生成 JSON 格式的消息,作为生产者发送给 Kafka、 Kinesis、 RabbitMQ、 Redis、 Google CloudPub/Sub、文件或其它平台的应用程序。原创 2022-08-14 20:13:46 · 3282 阅读 · 0 评论 -
Cloudera Manager —— 端到端的企业数据中心管理工具
Cloudera Manager 使用领先的整体界面,提供端到端的系统管理和关键企业功能,可在企业数据中心的各个部分中提供细粒度的可见性和控制。 Cloudera Manager 是唯一可用的企业级 Hadoop 管理应用程序:授权操作员提高集群性能,提高服务质量,提高合规性并降低管理成本。...翻译 2022-07-30 23:00:59 · 908 阅读 · 0 评论 -
CDH/CDP 是什么?
CDH ( Cloudera Distribution Hadoop )是 Cloudera 公司提供的包含 Apache Hadoop 及其相关项目的软件发行版本。CDP(Cloudera Data Platform)是 CDH 的继任者。CDP 是面向企业的云计算平台。原创 2022-07-28 22:32:37 · 10822 阅读 · 6 评论 -
HBase 怎样负载均衡?
负载均衡是分布式系统的必备功能,多个节点组成的分布式系统必须通过负载均衡机制保证各个节点之间负载的均衡性,一旦出现负载非常集中的情况,就很有可能导致对应的部分节点响应变慢,进而拖慢甚至拖垮整个集群。 在实际生产线环境中,负载均衡机制最重要的一个应用场景是系统扩容。 ...原创 2022-07-23 22:16:10 · 1392 阅读 · 0 评论 -
一篇文章搞懂 HBase 的 Coprocessor
HBase 使用 Coprocessor 机制,使用户可以将自己编写的程序运行在 RegionServer上。大多数情况下 HBase 用户并不需要这个功能,通过调用 HBase 提供的读写 API 或者使用 Bulkload 功能基本上可以满足日常的业务需求。 但在部分特殊应用场景下,使用 Coprocessor 可以大幅提升业务的执行效率。 ...原创 2022-07-23 21:37:17 · 965 阅读 · 0 评论 -
一篇文章搞懂 HBase 的 BlockCache
众所周知,提升数据库读取性能的一个核心方法是,尽可能将热点数据存储到内存中,以避免昂贵的 IO 开销。 现代系统架构中,诸如 Redis 这类缓存组件已经是体系中的核心组件,通常将其部署在数据库的上层,拦截系统的大部分请求,保证数据库的“安全”,提升整个系统的读取效率。同样为了提升读取性能, HBase 也实现了一种读缓存结构一BlockCache。...原创 2022-07-23 19:41:31 · 3170 阅读 · 0 评论 -
一篇文章搞懂 HBase 的 MSLAB
HBase 中,MemStore 从本质上来看就是一块缓存,可以称为写缓存。众所周知在 Java 系统中,大内存系统总会面临 GC 问题,MemStore 本身会占用大量内存,因此 GC 的问题不可避免。堆内存足够大的时候发生 Full GC 的停留时间可能长达好几分钟,解决这个问题不能完全靠 JVM 的 GC 回收策略,最好的解决方案是从应用本身入手,自己来管好自己的内存空间。......原创 2022-07-23 11:03:10 · 1000 阅读 · 0 评论 -
Apache Flink 的 K8s Session 提交流程
从总体上来说,在 K8s 集群上使用 Session 模式提交 Flink 作业的过程分为 3 个阶段:- 首先在 K8s 上启动 FlinkSession 模式的集群- 其次通过 Flink Client 提交作业- 再次进行作业调度执行原创 2022-07-19 00:13:06 · 1154 阅读 · 0 评论