近日,作为亚马逊云科技(AWS)合作伙伴,质变科技受邀参加“数据赋能·智启未来”——亚马逊云科技数据合作伙伴荟萃周活动。质变科技产品经理宁愚进行了主题演讲《Serverless AI-ready Data Cloud》,以下是演讲内容整理。
数据平台的演进历程
从数据平台演进的历程看,在上个世纪90年代,BI是由单独数据库进行分析;随着数据的增多和多数据源汇聚,出现了数据仓库产品形态,典型厂商包括Oracle/Teradata;随着大数据的发展,出现了Hadoop体系,对ETL、流数据、批数据进行处理;随着技术进一步演进,出现了湖仓一体;随着LLM出现,企业级客户对数据进行实时和融合的数据分析,这里面就是结构化和非结构化数据的融合分析。
从数据引擎的技术变迁看,最早SMP到MPP架构都是在IDC/自己的机房部署,典型的产品还是出自Oracle、Teradata、Greenplum,随着Hadoop体系诞生之后,以BSP计算模型为核心的Hive、Spark等产品流行起来;随着云出现,这些产品先被云化,相当于将这些产品从IDC转移到云上,而随着Kubernetes、OSS等云上技术发展,云产品逐渐从云托管转换到云原生;随着LLM的出现,AI和数据技术不断融合,出现了全新的AI-ready的数据云和AI-native的数据分析产品。
在整个数据平台和数据引擎技术变迁的历程当中,质变科技孕育和孵化了核心产品:Relyt AI-ready Data Cloud。
以数据为中心的云底座:Relyt AI-ready Data Cloud
Relyt AI-ready Data Cloud在公有云(AWS在内的全球主流公有云服务可用)之上,构建了结构化和非结构化数据融合(表/文本/图/向量/文件/数据湖)的一份数据服务层,存储之上我们构建了一个无状态的计算服务DPS,最上层是通过大模型能力实现的AI数据分析服务,自底向上我们构建了完整AI-ready Data Cloud产品体系。Relyt AI-ready Data Cloud提供SQL、Python标准接口服务。「现可通过AWS Marketplace下单购买经百万AI数据分析用户验证的Relyt AI-ready Data Cloud:https://aws.amazon.com/marketplace/pp/prodview-sj3gjqpgqdqq4」
10X TCO节省
在计算、元数据、数据耦合的传统架构下,存在资源利用率不高,资源扩展性不足等问题,而Relyt基于元数据、数据、缓存、计算解耦架构实现分层架构,在存储层之上拆分出Scan、Projection、Filter、Join等算子,针对这些算子进行优化后结合资源形成无状态的Serverless的计算服务DPS,这样就带来了以下好处:首先,计算无状态保证很好的扩展性,调度一个新的DPS/计算资源只需要几十毫秒;其次计算密度提升,通过将算子进行原子化之后,我们可以充分利用云上ECS特性,提升包括ARM/x86等异构资源的性价比。这样实现了10X TCO的成本优化。
零运维、99.9%的查询成功率
在高并发实时查询(报表等)和不定时的高吞吐的ETL查询混合场景下,高吞吐任务在MPP架构下会占据全部计算资源,导致实时查询任务得不到响应,Relyt组件AQS(Adaptive Query Scaling)会自动识别高吞吐,对系统负载压力大的查询,将其调度到弹性的资源池中,让客户实现按量付费,应用BSP模型保证其查询成功率,这种架构的好处有二:第一,我们可以在同一平台中实现混合负载,包含高并发查询和高吞吐查询;第二,保证了系统的高可靠和高可用。通过AQS实现查询的自动路由,这种能力在资源没有充分准备或者临时流量到来时,执行兜底方案,这样就大大降低客户的使用成本和风险的,保证客户专注业务开发而非底层资源的维护。算子优化
Relyt对算子进行了层层拆分,同时对软硬件进行了协同优化。在TPC-H基准测试中,我们将所有的查询进行汇总,按照Filter/Projection、Join、Aggregation进行分类,对比产品Trino、Spark、Clickhouse性能,在Filter/Projection场景下,Relyt性能是Spark的7.6倍;在Join场景下,性能是Trino的5倍;在Join场景下,性能也优于其他产品。综上,在以上所有类别算子场景下,Relyt查询成功率100%。向量查询性能
在1000万/512维的人脸数据上,进行8核/32GB RAM /32并发的查询测试,要求查询准确性为99%。可以看到Relyt QPS达到12000-14000之间,对比其他产品性能有1.8X~5X提升。PB级数据实时分析
今天,客户系统中包含BI、搜索、推荐、风控、运营等越来越多的实时业务,对数据实时分析的需求越来越旺盛。数据的实时包括两个方面:一方面是数据的实时写入,另一个是数据的实时查询。在实时写入方面,Relyt提供ACID的能力,支持百万级每秒的高吞吐的能力,提供ODBC/JDBC和OpenAPI两种接口方式,支持高并发的KV点查,最大并发查询超过1000。
端到端的安全、隐私和合规保障
Relyt基于公有云提供数据治理、联邦分析等能力,支持符合多国政策的多云、多region安全合规体系,提供数据库安全、数据加密和隐私保护、数据防泄漏/防丢失保护、用户登录和数据库链接认证等端到端安全保障。目前已通过国际标准化组织信息安全标准ISO27001、信息技术服务管理标准ISO20000,美国会计师公会数据安全控制标准AICPA SOC2认证,满足欧盟通用数据保护条例GDPR、新加坡个人数据保护法PDPA等合规要求。
20+生态链接
Relyt基于PostgreSQL协议,兼容Data Ops、Data Pipeline、BI&数据可视化等20+生态产品,支持从Redshift/Greenplum平滑迁移。
Data+AI一体化架构的Relyt AI-ready Data Cloud,从根本解决了企业私有数据分析场景面临的规模、实时、准确性、成本问题,在此之上可快速构建企业客户个性化的自主数据分析应用。
原生分布式缓存加速服务带来的价值
功能上,当前 NDP 已经稳定支持了与 AWS S3、KS3、US3、COS、OSS、TOS、GCS 等多个平台的对象服务的 IO 能力,屏蔽了多平台 IO 的差异性,并在报错处理上进行了统一处理,避免上层应用重复开发,为 AI-ready Data Cloud 提供了对数据访问进行加速和统一管理能力。目前 NDP 在 C、C++ 和 Java 语言层面提供了接口,后续还会提供 Python 语言接口,对接更多的 IO 型组件。
性能上,在 AI-ready Data Cloud 产品内部 E2E 测试中,NDP 的 local-cache 在无缓存的情况下,首次读取 local-cache 的性能与访问对象存储无差异;再次读取 local-cache 时,命中 local-cache 缓存与直接访问对象存储相比,local-cache 为计算的 IO 的性能提高了 30 倍。虽然在有缓存的情况下,读取 remote-cache 较 local-cache 性能劣化 15%左右,但其可提供的缓存容量远大于 local-cache,命中率远高于 local-cache。同时,分布式缓存形态下的 NDP 集群可以线性扩展,做到用户无感知的扩缩容,且扩缩时延达到毫秒级别。
通过应对对象存储 IO 性能的挑战,AI-ready Data Cloud产品能够为用户提供极致的低成本和高速响应的使用体验。AI-ready Data Cloud 将在搜索、推荐、广告、大模型等业务方面提供高效、低成本的解决方案,是追求极致性价比和计算效率的极佳选择。