
大数据
文章平均质量分 65
大数据
知知之之
这个作者很懒,什么都没留下…
展开
-
Flink
负责执行计算任务,同时,Flink 提供客户端 Client 来管理集群和提交任务,Flink 集群采取 Master - Slave 架构,Master 的角色为。,负责集群和作业管理,Slave 的角色是。原创 2024-09-26 10:27:24 · 734 阅读 · 0 评论 -
Flink CDC
位于高低水位线之间、与被捕获表相关的 binlog 事件(上图中的黄色方块)即为全量数据在读取阶段发生的数据变化,CDC source 会将这部分增量数据合并至现有快照,合并完成后即可获得与源数据库完全一致的实时快照,并且在此过程中无需对数据库进行加锁,不会影响线上业务的正常运行。在读取全量数据时,Flink CDC source 会首先将数据表中的已有数据根据主键分布切分成多个 chunk(如上图中的绿色方块所示),并将 chunk 分发给多个 reader 进行并发读取。原创 2024-09-26 10:06:52 · 526 阅读 · 0 评论 -
Debezium
允许用户实时地从数据库中捕捉到数据的变化(如插入、更新和删除操作),并将这些变化以结构化的数据流的形式提供给其他系统进行处理和分析。在这种情况下,Debezium不会通过Kafka Connect运行,而是作为一个嵌入到定制Java应用程序中的库运行。以插件的形式,部署在 Kafka Connect 上,在上图中,中间的部分是 Kafka Broker,而 Kafka Connect 是单独的服务,需要下载 debezium-connector-mysql 连接器,解压到。原创 2024-09-23 15:55:21 · 857 阅读 · 0 评论 -
ClickHouse表引擎
表引擎在ClickHouse中的作用十分关键,直接决定了数据如何存储和读取、是否支持并发读写、是否支持index、支持的query种类、是否支持主备复制等。ClickHouse提供了大约28种表引擎,各有各的用途,比如有Log系列用来做小表数据分析,MergeTree系列用来做大数据量分析,而系列则多用于外表数据集成。再考虑复制表Replicated系列,分布式表等。...原创 2022-07-20 15:41:53 · 1500 阅读 · 0 评论 -
浅尝Clickhouse
ClickHouse 特性SQL 支持:支持大部分 SQL 功能。 列式存储,数据压缩: 列式存储能够更加有利于 OLAP 聚合查询,同时也能大大提高数据压缩率。 多核(垂直扩展),分布式处理(水平扩展):使用多线程和多分片并行处理。 ClickHouse将数据划分为多个partition,每个partition再进一步划分为多个index granularity,然后通过多个CPU核心分别处理其中的一部分来实现并行数据处理。 在这种设计下,单条Query就能利用整机所有CPU。极致的并行处..原创 2022-05-20 15:08:06 · 506 阅读 · 0 评论 -
ClickHouse架构
服务器实现了多个不同的接口一个用于任何外部客户端的HTTP接口。一个用于本机ClickHouse客户端以及在分布式查询执行中跨服务器通信的TCP接口。一个用于传输数据以进行拷贝的接口。原创 2022-07-20 16:13:54 · 631 阅读 · 0 评论 -
ClickHouse基本原理
数据分片是将数据进行横向切分,这是一种在面对海量数据的场景下,解决存储和查询瓶颈的有效手段,是一种分治思想的体现。ClickHouse支持分片,而分片则依赖集群。每个集群由1到多个分片组成,而每个分片则对应了ClickHouse的1个服务节点。分片的数量上限取决于节点数量(1个分片只能对应1个服务节点)。当创建好了这张表之后,那么一次批量插入,就可能形成多个分区,其实每个分区,就是表存储目录中的一个子文件夹。......原创 2022-07-20 17:04:39 · 3200 阅读 · 0 评论 -
Doris
Doris整体架构如下图所示,Doris 架构非常简单,只有两类进程,主要负责用户请求的接入、查询解析规划、元数据的管理、节点管理相关工作。,主要负责数据存储、查询计划的执行。这两类进程都是可以横向扩展的,单集群可以支持到数百台机器,数十 PB 的存储容量。并且这两类进程通过一致性协议来保证服务的高可用和数据的高可靠。这种高度集成的架构设计极大的降低了一款分布式系统的运维成本。在使用接口。原创 2024-09-23 11:26:53 · 1139 阅读 · 0 评论 -
MPP架构
是一种数据库或计算架构,通过高度并行的处理能力来处理和分析大型数据集。该架构利用多个处理节点或服务器来并行执行计算任务,从而显著提高性能和处理速度。原创 2024-09-23 10:53:35 · 389 阅读 · 0 评论