破局数据复杂架构,从TCHouse-X 发布谈起

3b669350439880d9a7d79e9bb7eb02b9.png

近日,有幸受邀参加腾讯云举办的 TCHouse-X 产品发布会,对这一新发布的智能数据平台有了较为全面的了解。其内置的强大能力,可比喻为数据领域的最强六边形战士。在面对日益复杂的数据架构下,其提供了全栈式、一体化、智能化的数据服务能力。下面就针对这一产品做一简单的介绍。

1. 数据平台演进及"AI 时代"需求

在正式展开说明之前,先回顾下数据平台演进过程,从中也可一窥 TCHouse-X 平台诞生的前世今生。

f80fa6ee1d864f0675225219fd0198c2.png

从上图中我们可将数据平台的发展划分为四个时代,分别对应“信息化时代”、“互联网时代”、“互联网+时代”及“AI 时代”。在第一阶段,以 Oracle 数据仓库产品为典型代表产品,这一阶段一个重大的突破就是将数据库与数据仓库分离,数据仓库专注于更大规模数据的计算与分析。随着互联网时代的到来,传统数据仓库面临数据规模与计算压力的瓶颈,因而出现了以 Hadoop 大数据平台为代表产品,数据平台进入到第二阶段。但是随着近些年来数据的实时应用场景被不断挖掘,以 Hadoop 为代表产品在实时性方面存在明显短板,进而除了以多种不同产品来组合搭建平台解决实时性不足问题。此时进入了第三个阶段,但这一阶段典型的拼凑式架构模式使得各个架构之间不兼容,进而产生了严重的孤岛现象。特别是随着开源生态的发展,这种现象进一步加剧。用户不得不面对庞大复杂的数据架构或数据生态,这些都对运维者、管理者、开发者带来了巨大的挑战,企业也不得不面临高昂的使用成本,且整体生态面临孤岛化和复杂化。随着近些年 AI 技术的快速发展,企业在面临上述问题的同时,还需解决基于数据之上的AI应用问题,这对于数据平台也提出了更高的要求。

进入“AI 时代”后,我们理想中的平台应该是什么样呢?这里我们可以用四个词来总结概括,一体化、智能化、高性能、云原生。一体化,是指不仅仅要解决“互联网+时代”技术栈割裂的问题,还需应对新时期 AI 的需求提供一站式的解决能力。智能化则是需要针对平台的开发者、使用者提供更加友好的交互能力,解决之前对用户带来的诸多挑战。高性能则是为了保证数据的实时能力,提供在海量数据规模下的实时数据计算能力。而最后的云原生,则是充分利用云所带来资源供给上能力,为用户提供更具弹性及性价比的方案。

2. TCHouse-X 产品简介

今天我们谈到的 TCHouse-X,正是为了解决上述问题而提出的新一代产品。与以往腾讯云推出的诸多产品不同,这款产品将定位立足于“AI原生的数据平台”,这也是从之前的云原生数仓升级而来。那么这一产品有什么特色呢?我们可用如下五个词来概括:一体化、集约化、高性能、实时性、智能化。

1).一体化:存储、计算、服务

在架构设计方面,TCHouse-X采用了集成化的架构方案,实现了云原生环境下多集群的数据和元数据共享管理。这一设计消除了传统数据平台在处理离线计算、在线计算以及AI开发任务时所面临的障碍。用户现在能够利用同一组数据执行在线分析、离线数据处理、数据湖分析和机器学习等多种业务任务,而无需在不同的系统之间进行切换或复制迁移数据。这使得在同一平台上进行AI、BI和数据开发成为可能,实现了开发和协作的一体化。这一特色可以说是产品的最大亮点,实现了诸多一体化,后文还将进一步展开说明。

1471dbc04affca322260c0f1eed6f33e.png

2).集约化:资源弹性与调度

TCHouse-X 产品支持多种弹性策略,无论是应对突发流量高峰还是处理大规模查询,都能有效帮助企业实现资源的灵活配置,降低成本并提高效率。特别是其弹性策略设计上,考虑多种场景。如下图中Case 1代表的计划性场景、Case 2代表的突发性场景、Case 3代表的不可预测类场景。可以说 TCHouse-X 的弹性策略可有效应对多种复杂场景,在满足需求同时,提供更具性价比的方案。

034a9456248ad9c114554fad51713ccd.png

3).高性能:自研存储引擎与优化器

在性能方面,TCHouse-X依托腾讯云自主研发的核心引擎技术,对计算、存储和网络等多个关键领域进行了深度优化,从而为客户提供了卓越的端到端性能体验。在效率方面,TCHouse-X能够实现对原始数据的即时处理,并支持毫秒级别的在线分析能力,这有助于企业快速把握市场机遇。在存储引擎方面,其内置了高效的列式存储引擎、丰富的索引结构以及数据分布策略,最大程度提升写入性能、减少数据扫描量,充分兼顾了数据新鲜度、资源成本和查询性能。计算引擎方面,产品基于向量化和Push模型的Pipeline执行引擎,充分利用多机多核CPU资源,自动根据计算负载选择不同调度方式,大幅提升查询计划执行效率。作为核心的查询优化器,产品同时支持基于规则的优化和基于代价的优化,以最高效方式将SQL转化成物理执行计划;引入自适应动态执行技术,进一步提升执行计划准确性。

4).实时性:增量计算、流批一体

在实时数据处理技术上,一方面平台基于变更数据捕获技术,提供实时数据从源头的捕捉能力;另一方面平台提供了在线数据加工能力。如传统的分层数据仓库架构下,通过增量计算能力提高构建速度;对于流式与批量处理场景,则提供了一体化加爵能力,简化了传统架构逻辑;针对固定实时类的查询需求,则提供了物化视图能力,加速查询。通过针对多种实时场景的深度优化,TCHouse-X 完全可满足高效实时处理要求。

6f8c8f85cfb26375bb8b8cb355f99906.png

5).智能化:开发、管理与运维

TCHouse-X 针对多种用户角色,通过智能化设计降低使用门槛、提高整体易用性。针对数据开发者来说,产品除了支持标准SQL外,还提供自然语言交互方式,进一步简化使用;针对平台运维者而言,产品通过深入融合AI,实现了“自动驾驶”能力,做到检测、分析、优化等任务自动完成;针对企业管理者关心的成本问题,产品通过 AI 智能调度系统,能够实时感知负载并智能规划资源,从而提高计算资源的利用率,进而降低综合使用成本。

b7e634ca689c1ece48485c5d877b7e41.png

基于上述特点,经测算 TChouse-X 产品在线查询性能优于市场同类产品50%,而离线批处理的综合性价比则提升了10倍之多。在计算资源层面,采用TCHouse-X,企业计算资源成本最高也能降低50%。

3. 产品架构及“一体化”亮点

上面我们谈到产品的诸多特点,那么产品是如何实现的?其整体架构是怎样的呢?下图就是 TCHouse-X 产品架构图,从中我们可以一窥端倪。

54920ee9cb1a58dbc0bfc018658f768f.png

上面产品架构图给我最深刻的印象,也是上面特色部分谈到的第一点“一体化架构”。产品在构建之初,就将一体化的理念深入其中,并在产品实现中处处体现。我们可从几个角度来看待一体化。

1).存储一体化(数据存储+元数据)

产品基于“一份数据+一份元数据”实现了存储一体化。在底层,基于云基础设施产品提供深度优化的存储引擎;在上层通过元数据,为企业提供统一数据视角。这样设计为平台数据计算、优化及上层数据应用打下良好的基础。一体化的存储设计,一方面可实现数据即时捕获和处理,降低处理延迟;一方面有利于通过数据质量控制技术,确保数据的准确性和一致性。此外更为直观的是,一体化存储设备有利于降低企业数据存储成本,减少资源投入及维护成本,也有利于更为精准的资源配置和运营优化。

2).计算一体化(离在线与流批计算)

过往的平台,针对数据的计算往往是通过不同平台来实现,这通常是受限于平台计算能力的支持程度。TCHouse-X 提出的计算一体化,将针对数据的不同计算需求进行整合统一。如针对离线与在线数据的计算,通过同一平台完成,这对提升数据处理效率、降低数据传输转换成本、保证数据一致性等有诸多好处,从用户来看也简化管理及处理数据的复杂度,也有利于提高资源利用率、降低使用成本。

3).BI+AI 一体化(基于同一Data)

BI 分析是过往数据仓库平台主要提供的能力,但随着 AI 的兴起,针对数据的智能处理变得非常重要。以往是需要在不同平台单独完成,TCHouse-X 则提出了基于一份数据之上的BI+AI的一体化计算能力,可实现不仅仅是提供两种数据计算的方式,而是可以整合两类需求并可综合应用。这也是平台定位不仅是一个云原生数据仓库,而是 AI 原生的数据平台的根本。此外,基于同一的交互界面,也降低了用户使用 AI 的门槛,可充分复用已有技术积累,实现快速构建 AI 能力。

4).场景一体化

针对数据的业务负载是多种多样的,如何帮助企业简化架构,提高数据分析利用效率,是平台需要考虑的。TCHouse-X 基于一体化架构设计理念,可有效应对复杂多变的数据使用场景,基于同一数据提供一站式的解决方案。会上列举了产品在大模型AIGC应用、车联网数据平台等业务的在线分析、离线数据处理、日志分析、数据科学与机器学习等场景均提供了高效、稳定的数据分析支持。以腾讯会议为例,采用 TCHouse-X 后,其典型事件漏斗分析耗时从近百秒降低至几秒,性能最高提升近10倍。

随着上面四个一体化的不断深入和强化,避免数据重复搬迁,提供统一数据计算服务,简化数据架构与应用,降低成本和提高效率,为企业释放数据价值提供坚实的基础。

4. 产品体验:一站式数据平台

针对新发布的 TCHouse-X 产品,做了个简单的产品体验,整体操作下来还是非常顺滑的。如下图在TCHouse-X 的控制台界面,可以完成对集群实例、数据入仓、SQL分析、任务管理、数据分析等多类工作的管理。在SQL工作区部分,与常用的SQL IDE很类似,用户可以零学习成本快速上手。

fedb259eb37f2d603fc15a9c768ac120.png

如果涉及到复杂的任务编排,可利用腾讯云提供的一站式数据开发平台-WeData来完成。后者提供了覆盖数据全生命周期的开发环境及管理能力。

030ccb7bb303ff9b5cbdd338507e6227.png

以常规的数据仓库多层数据加工为例,可通过拖拉拽的方式快速构建任务pipeline。其中每一步的加工逻辑可使用多种加工方式,如图中就是调用TCHouse-X提供的一个作业来完成。

86d5e08d399a37ffb24f8d1a588c264c.png

在配置完成后,可通过内置的调度平台实现对作业的配置调度。

c62828c3eb80b448240b94f8f3e45f49.png

对加工后数据,可在控制台内做图形化分析,通过拖拽完成维度、指标配置,并直接实现图表展示。上述就完成一个简单的从数据入仓、加工作业、任务编排、任务调度、数据可视化分析的全过程。

af6205392b1edd6c96dc64f4b580a975.png


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值