看云上 ClickHouse 如何做计算存储分离

2020年12月6日-7日,由InfoQ 中国主办的综合性技术盛会QCon全球软件开发大会深圳站召开。QCon 内容源于实践并面向社区,演讲嘉宾依据热点话题,面向资深的技术团队负责人、架构师、工程总监、开发人员分享技术创新和实践。

在 QCon 盛会上,腾讯云大数据专家工程师陈龙为大家带来了题为《看云上 ClickHouse 如何做计算存储分离》的分享,以下是分享整理全文。

各位朋友大家好,我是陈龙,我今天给大家分享的内容是:看云上 ClickHouse 如何做计算存储分离。

 

首先介绍下我自己,我来自腾讯云大数据团队,2011 年加入腾讯,先后主导开发了腾讯云 Redis,云数据库 HBase 以及 EMR 等多款云产品的开发工作,在多个开源社区贡献过代码,目前专注于腾讯云 EMR 和云数仓 ClickHouse 的开发工作,我今天分享的内容主要分为三部分: 

一、腾讯云云数仓 ClickHouse 的演进过程 

二、腾讯云在 ClickHouse 计算存储分离的实现 

三、基于计算存储分离架构下的未来规划

 

1. 腾讯云云数仓 ClickHouse 的演进过程 

我们首先来看数据仓库的演进过程,数据仓库到目前为止大致分为 4 代,在第一代,数据库主要应用于 OLTP 场景,并采用共享存储架构, 因此被称为事务型数据库。这一阶段,由于 OLAP 场景尚不成熟,因此分析型数据库(即“数据仓库”) 尚未完全从事务型数据库中完全脱离出来,以采用 Oracle、DB2 等共享存储架构的事务型数据库为主。在这一阶段,数仓存在的问题是价格昂贵,且受到共享存储架构影响,可扩展性较差,扩展到十几个节 点就会遇到存储瓶颈,仅能适应面向管理层的报表分析需求,但无法适应更大规模、更多用户的数据分析场景。

在第二代,主要是面向分析型场景的无共享架构的 MPP 数据仓库,在一定程度上解决了因共享存储 架构带来的扩展性难题。但是由于它基于大型机、专有硬件,还有软件架构的限制,因此扩展性仍然难 以达到数千节点级别,且扩展成本昂贵,但是,MPP 也存在固有缺陷,一方面,无共享架构导致了其难 以实现上千节点的扩展,另一方面,计算与存储节点的绑定也使得其扩展灵活性不够,难以适应工作负载变化更快的数据分析场景的需求。

在第三代,主要是以 SQL-on-Hadoop 的方式来构建数据仓库,尽管 SQL-on-Hadoop 数仓在硬件 架构上仍然基于无共享架构,但在软件架构层面实现了计算与存储的完全分离。因此,相比于 MPP 数 仓,SQL-on-Hadoop 数仓进一步提升了扩展灵活性,降低了存储节点的管理难度,节点规模上限被提 升到几千节点,但是,由于底层存储系统 HDFS 的只读特点,SQL-on-Hadoop 数仓普遍存在一系列缺 点,比如对传统 SQL 兼容性不足,对 Update/Delete 等更新操作和混合工作负载(OLTP+OLAP 场 景)支持性较差,对事务型数据库所必备的 ACID 特性缺乏支持。

第四代,云原生数仓,随着云计算的兴起,数据仓库逐步开始云化。相比于部署在物理硬件上的数 仓,云数仓的优势在于能够支持云的按需取用、弹性扩容特性,有效提升数仓的扩展效率,降低扩展成 本和运维难度,早期的云数仓更像是将物理硬件环境的数仓打包到云环境中,并没有基于云环境的许多 特性对数仓进行深度原生优化。

 

技术演进的目的是为了成本和更加易于,我们首先来看成本问题。

无论什么样的架构,其服务承载的基本单位就是服务器,我们先从单台服务器来看数据分析的成本问 题,对一台服务器来看其核心成本分为三个部分:

CPU 以及芯片组,占整机成本的 50% 左右

内存存储芯片,占整机成本的 15% 左右

外部存储,占整机成本的 10% 左右 

在传统模式下,这些资源强绑定在一起,造成的问题是计算浪费或者是存储浪费,结果就是成本升高, 解决的办法是计算和存储解耦,这也是目前大数据分析领域里一种新的尝试。

再从性能角度看,一台服务器 IO 磁盘 IO 能力为单盘 IO* 磁盘数,出于成本考虑,假设采用的是 HDD 的设备,10 块盘的设备其磁盘 IO 能力约是 2.5GB/s,而随着在云环境下硬件架构演进,整机网络 IO 能力都是 100GB 起,其 IO 能力远超普通磁盘 IO 能力,同时结合合理的索引以及数据结 构设计,能够带来更强的数据扫描能力,同时云上对象存储的容量可以理解为无上限,可以让存储集群 的维护成本降为 0,其按存储量计费的模式,可以大大降低存储成本,云上海量的计算资源可以保证数据 仓库的计算需求,那么我们接下看基于云的存储计算分离、资源弹性、统一存储如何构建云上云原生数仓。

 

站在云数据仓库视角看,主要满足企业中三种角色人员的需求,云的发展让 IAAS 进入了工业化时 代,而云数仓的目的也是要让数据分析进入工业化时代

对企业 CEO

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值