看云上 ClickHouse 如何做计算存储分离

2020年12月6日-7日,由InfoQ 中国主办的综合性技术盛会QCon全球软件开发大会深圳站召开。QCon 内容源于实践并面向社区,演讲嘉宾依据热点话题,面向资深的技术团队负责人、架构师、工程总监、开发人员分享技术创新和实践。

在 QCon 盛会上,腾讯云大数据专家工程师陈龙为大家带来了题为《看云上 ClickHouse 如何做计算存储分离》的分享,以下是分享整理全文。

各位朋友大家好,我是陈龙,我今天给大家分享的内容是:看云上 ClickHouse 如何做计算存储分离。

 

首先介绍下我自己,我来自腾讯云大数据团队,2011 年加入腾讯,先后主导开发了腾讯云 Redis,云数据库 HBase 以及 EMR 等多款云产品的开发工作,在多个开源社区贡献过代码,目前专注于腾讯云 EMR 和云数仓 ClickHouse 的开发工作,我今天分享的内容主要分为三部分: 

一、腾讯云云数仓 ClickHouse 的演进过程 

二、腾讯云在 ClickHouse 计算存储分离的实现 

三、基于计算存储分离架构下的未来规划

 

1. 腾讯云云数仓 ClickHouse 的演进过程 

我们首先来看数据仓库的演进过程,数据仓库到目前为止大致分为 4 代,在第一代,数据库主要应用于 OLTP 场景,并采用共享存储架构, 因此被称为事务型数据库。这一阶段,由于 OLAP 场景尚不成熟,因此分析型数据库(即“数据仓库”) 尚未完全从事务型数据库中完全脱离出来,以采用 Oracle、DB2 等共享存储架构的事务型数据库为主。在这一阶段,数仓存在的问题是价格昂贵,且受到共享存储架构影响,可扩展性较差,扩展到十几个节 点就会遇到存储瓶颈,仅能适应面向管理层的报表分析需求,但无法适应更大规模、更多用户的数据分析场景。

在第二代,主要是面向分析型场景的无共享架构的 MPP 数据仓库,在一定程度上解决了因共享存储 架构带来的扩展性难题。但是由于它基于大型机、专有硬件,还有软件架构的限制,因此扩展性仍然难 以达到数千节点级别,且扩展成本昂贵,但是,MPP 也存在固有缺陷,一方面,无共享架构导致了其难 以实现上千节点的扩展,另一方面,计算与存储节点的绑定也使得其扩展灵活性不够,难以适应工作负载变化更快的数据分析场景的需求。

在第三代,主要是以 SQL-on-Hadoop 的方式来构建数据仓库,尽管 SQL-on-Hadoop 数仓在硬件 架构上仍然基于无共享架构,但在软件架构层面实现了计算与存储的完全分离。因此,相比于 MPP 数 仓,SQL-on-Hadoop 数仓进一步提升了扩展灵活性,降低了存储节点的管理难度,节点规模上限被提 升到几千节点,但是,由于底层存储系统 HDFS 的只读特点,SQL-on-Hadoop 数仓普遍存在一系列缺 点,比如对传统 SQL 兼容性不足,对 Update/Delete 等更新操作和混合工作负载(OLTP+OLAP 场 景)支持性较差,对事务型数据库所必备的 ACID 特性缺乏支持。

第四代,云原生数仓,随着云计算的兴起,数据仓库逐步开始云化。相比于部署在物理硬件上的数 仓,云数仓的优势在于能够支持云的按需取用、弹性扩容特性,有效提升数仓的扩展效率,降低扩展成 本和运维难度,早期的云数仓更像是将物理硬件环境的数仓打包到云环境中,并没有基于云环境的许多 特性对数仓进行深度原生优化。

 

技术演进的目的是为了成本和更加易于,我们首先来看成本问题。

无论什么样的架构,其服务承载的基本单位就是服务器,我们先从单台服务器来看数据分析的成本问 题,对一台服务器来看其核心成本分为三个部分:

CPU 以及芯片组,占整机成本的 50% 左右

内存存储芯片,占整机成本的 15% 左右

外部存储,占整机成本的 10% 左右 

在传统模式下,这些资源强绑定在一起,造成的问题是计算浪费或者是存储浪费,结果就是成本升高, 解决的办法是计算和存储解耦,这也是目前大数据分析领域里一种新的尝试。

再从性能角度看,一台服务器 IO 磁盘 IO 能力为单盘 IO* 磁盘数,出于成本考虑,假设采用的是 HDD 的设备,10 块盘的设备其磁盘 IO 能力约是 2.5GB/s,而随着在云环境下硬件架构演进,整机网络 IO 能力都是 100GB 起,其 IO 能力远超普通磁盘 IO 能力,同时结合合理的索引以及数据结 构设计,能够带来更强的数据扫描能力,同时云上对象存储的容量可以理解为无上限,可以让存储集群 的维护成本降为 0,其按存储量计费的模式,可以大大降低存储成本,云上海量的计算资源可以保证数据 仓库的计算需求,那么我们接下看基于云的存储计算分离、资源弹性、统一存储如何构建云上云原生数仓。

 

站在云数据仓库视角看,主要满足企业中三种角色人员的需求,云的发展让 IAAS 进入了工业化时 代,而云数仓的目的也是要让数据分析进入工业化时代

对企业 CEO

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值