腾讯云数仓 TCHouse:基于 zero ETL,实现事务

41f5ea389c421843499a6131ec75aabe.gif

导读 腾讯云官网上有上百款在售的产品,面向海量数据处理和分析场景,从大数据基础引擎、数据开发与治理平台、到数据应用服务,腾讯云提供了全栈的大数据产品服务及解决方案。针对不同的真实业务场景,用户往往会搭配使用多款产品,如何让多产品丝滑地联动起来、为用户提供高效易用和高性价比的大数据分析体验,是我们长期努力的目标。本次分享将为大家介绍近半年我们在多款大数据产品联动使用体验方向上的主要进展。

主要内容包括以下几个部分:

1. 大数据技术演进

2. Zero-ETL

3. 高性能分析

4. 一站式 RAG

5. 资源统一管理


01

大数据技术演进

早在 80 年代,关系型数据库问世以来,就被广泛应用到各行各业。随着业务数据的不断累积,很自然地衍生出了数据分析的需求。最早的数仓产品,如 Oracle Exadata、DB2 Netezza,都是在这样的背景下成长起来的。

早期用户需要通过 ETL 离线跑批的方式,将数据从业务数据库中加载到数据仓库中,以应对数据分析的需求,这是典型的 T+1 模式。这种模式存在两个问题,第一,整个过程的时效性很差,无法实现实时数据分析;第二,构建 ETL 的过程非常繁琐,且常年累积下来大量的 ETL 作业难以维护。针对 ETL 的种种弊端,其中一种应对方式是在业务数据库的基础上增加 AP 的能力,也就是我们常说的 HTAP,以一套系统应对事务处理和数据分析的需求,以此解决数据时效性和数据处理管道复杂性的问题。

但在实际应用过程中,HTAP 数据库存在多个局限,例如需要将多个数据库的数据汇聚到一起做分析,并且敏感业务不希望在交易库上做任何与交易无关的事情。因此我们选择了另外一种应对方式,zero-ETL。

02

Zero-ETL

f65ea6dc0f788953f43093a62a9e54d2.png

顾名思义,zero-ETL 就是不需要用户去维护一个复杂的数据管道,用户只需要简单配置数据源端和目标端,即可一键开启数据实时同步,减少构建数据管道过程中带来的资源消耗和开发维护成本,实现一站式的事务处理和数据分析体验。目前我们已经发布上线了从 MySQL 数据库到腾讯云数仓 TCHouse-D 的 zero-ETL 能力。所有 MySQL 生态的数据库均适用,包括但不局限于 TDSQL、RDS MySQL、自建 MySQL 等。

腾讯云数据仓库 TCHouse 是腾讯云打造的一系列企业级托管型云数仓产品,兼备高性能、低成本、稳定性以及安全性的同时,提供了高效的自主运维工具和自主开发环境等配套设施,满足用户不同业务数据仓库场景的方案选型,提升用户分析查询效率、赋能用户数据价值。其中 TCHouse-D 是腾讯云基于业内领先的 OLAP 数据库 Apache Doris 内核构建的云数据仓库服务。

在 TCHouse-D 中,用户无需关心异构数据之间的数据类型转换问题,在 TCHouse-D 中配置数据源后,系统会自动完成建表、字段映射、数据同步、数据校验等任务,同时会在 TCHouse-D 上创建出合理的分区分桶策略,以获取最佳的分析性能。除了一对一的配置之外,TCHouse-D 还支持多对一,配置多个数据源,即可构建多源汇聚,实现统一全局分析。

不同于业界大多数数据仓库,TCHouse-D 还具备高效的数据更新能力,支持实时的数据整行更新、部分列更新、条件更新和删除等,充分应对实时数据的各类变化。同时,在上游数据源发生 Schema 变化时,TCHouse-D 还支持 DDL 语句的同步,整个过程无需停服重启任务。与此同时,系统会智能地去检测整个链路上的负载情况,动态调整同步任务的并发数和是否启动反压模式,以达到最佳的数据同步时效性。

根据目前的数据显示,从 MySQL 到 TCHouse 数据同步延迟在 1 秒以内。后续我们还会陆续支持更多类型的数据源,欢迎大家来体验和使用。

03

高性能分析

8fe19a3928cf1f4040f82746ec8b3c7c.png

在结构化和半结构化数据的高性能分析方面,我们提供了云数据仓库 TCHouse,同时我们还提供了湖仓一体的解决方案,这其中主要涉及到 DLC 和 TCHouse 两款产品的联动。

DLC 是腾讯云打造的敏捷高效的数据湖分析与计算服务,主要聚焦在数据湖计算领域,主打基于开放湖数据格式的海量数据分析以及 serverless 按需使用,有效降低用户数据分析服务搭建成本及使用成本,提高企业数据敏捷度。TCHouse 针对海量数据下提供极致性能的在线分析能力,在实际应用过程中,这两款产品经常搭配使用。数据实时入湖之后,DLC    对湖上各类数据进行离线加工处理,处理后的高质量结构化数据会加载到 TCHouse 数据仓库中,对外提供高性能的在线分析服务。

过去湖仓并行的架构带来了一些问题:

  • 数据双份存储,带来不必要的额外存储成本;

  • 数据在湖仓之间流转依赖 ETL 或数据集成工具,带来了额外的资源消耗、降低了数据时效性并增加了架构复杂度;

  • 元数据的不统一可能会导致数据一致性的问题。

针对湖仓并行架构,我们加强了两个产品的深度融合,推出了湖仓一体解决方案。在 TCHouse 的控制台上可以开启湖仓一体功能,利用 TCHouse Multi-Catalog 能力自动识别和读取 DLC 的元数据信息,无需数据同步即可利用 TCHouse 对 DLC 中的数据进行读写。针对湖上分析负载,TCHouse 还引入了无状态的弹性计算节点,结合 TCHouse 自身的高性能查询引擎,可以极大幅度加速湖上数据分析,相较于过去实现近十倍的性能提升。

04

一站式 RAG

刚才讲了很多关于数据和分析的内容,其实腾讯云也在践行大数据和 AI 的深度融合,为企业智能化赋能。

伴随着大模型的兴起,RAG 这个词也高频的出现在各种场合。RAG 字面意思是检索增强生成。RAG    在整个 AI 生态中所做的事情就是为大模型补充更多的数据,可能是私域数据,也可能是更新鲜的数据。所以 RAG 的本质就是存数据、找数据。当然在这个场景下找数据的速度一定要快。

此外通常找数据有 3 种途径:第一种是精确查找,就像我们经常在 OLAP 里面做的事情,查询某个字段具体的数值是多少;第二种是模糊查询,比如全文检索,输入一个关键字,返回所有包含这个关键字的内容;第三种是近似查询,这就是我们常说的向量计算,在向量空间中找到距离最近的内容。

因此,一款理想的 RAG 产品需要不仅要查询性能高,还要同时支持这三种查询方式。这大概也是为什么 OpenAI 在今年选择收购 OLAP 引擎 Rockset 的原因。

c55def1a0bce40020e63300621166f78.png

在 24 年上半年,我们发布了基于腾讯云 ES 的一站式 RAG 方案。同时我们也在持续增强腾讯云 TCHouse 的向量计算能力,因为目前已经存在 TCHouse 中的数据接近 EB,我们希望通过原地升级的方式,让这些数据参与到企业智能化的进程中。比如当前微信的相似人群扩展业务,就是通过 TCHouse 的向量检索能力来实现的。

05

资源统一管理

3459e20b30f9915ff88b89876dbe3bd6.png

除了多产品间的一体化联动之外,我们还注意到很多客户的核心数据资产仍然会留在线下 IDC。但是部分非敏感业务或者是对弹性需求较高的业务会放到公有云,云上云下采用不同的技术栈,这种架构相对比较割裂,运维起来也会比较麻烦。而且 IDC 里面的机器资源可能存在闲置的问题。因此近期腾讯云 EMR 发布了第三方资源纳管的能力,支持将客户线下 IDC 的机器资源纳管到公有云 EMR 集群中,实现 IDC 资源和云上资源统一的管理,为用户带来云上云下一致的体验。同时也可以盘活 IDC 的闲置资源,实现高效降本。腾讯云大数据始终致力于为各行业客户提供轻快、易用、智能的大数据平台。

3a6f224b1cdedbc612d59317071a2334.gif

b28e7746e4c4936442295727505b9807.png

分享嘉宾

INTRODUCTION

dbc131dd81fa92d442c6838bf5dac150.gif

王庶

470cf1e79cee107d843a4b7fd7421cbe.gif

腾讯云

084c40f5dfc4de49734976d53c5267fb.gif

产品负责人 

关注腾讯云大数据公众号

邀您探索数据的无限可能

4c23c0fd77ef56458f49a6b2e00af3f5.png

点击阅读原文了解更多相关产品详情

↓↓↓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值