在这个数字化时代,数据技术是驱动我们前进的动力,无论是时下依然爆火的基础大模型,还是主流热门应用,背后都离不开数据技术。正所谓得数据者懂天下,用数据者得天下,现如今随着数据量的指数级增长、多模态数据的呈现、实时数据流的处理等等,数据在存储、管理、使用过程中所应用的数据库、大数据技术都面临着重大的技术升级与变革。
10 月 23-24 日,第四届“长沙·中国1024程序员节”(1024.youkuaiyun.com)盛大举行,其中,我们特别策划了“数据技术”主题论坛,邀请了阿里、腾讯、华为等顶级科技公司的专家,聚焦向量数据库、云数据库、大数据架构的演进、数据库中的核心技术如事务处理等内容,同时深入探讨云容灾解决方案等关键应用,分享产业界在使用数据技术的最佳实践。
以下为精彩亮点提炼:
完整内容与 PPT 详见:https://1024.youkuaiyun.com/
一谈:数字化时代,企业数据库如何构建?
来自阿里云 RDS 和开源 OLAP 产品研发负责人彭祥在带来《阿里云瑶池数据库加速云上数智创新》 主题演讲中,从四个维度分享了他们目前在构建企业级数据库方面的经验,同时解释了如何在应对AIGC热点的同时,迎接AI浪潮,以解决企业数字化转型中涉及的业务和技术挑战。
在彭祥看来,数据库的设计在数字化转型和云上迁移过程中主要面临着三个核心挑战:
- 降低数据库使用成本和提升易用性。
- 增强功能,提升性能。
- 提升数据安全和隐私保护。
而企业级数据库在应对数字化转型中的挑战,特别从云数据库的角度出发,它与传统数据库存在四个关键差异:云原生化、平台化、一体化和智能化。在这一过程中,阿里云基于做深基础、做强核心、做精场景、做好体验理念构建了“瑶池数据库”,覆盖自研云原生关系型数据库 PolarDB、云数据库 RDS、云原生多模数据库 Lindorm 和云数据库 MongoDB,以及AnalyticDB、ClickHouse、SelectDB 等云数据仓库。

论及数据库与 AIGC 结合,彭祥表示,向量能力只是一部分,也需要关注如何使用自然语言与数据库打交道。过往用户或者终端的用户需要跟数据库打交道需要学会 SQL,SQL 实际上是计算机领域的专有语言,需要培训,如何使得用户以自然语言的形式跟数据库打交道,这个是向量数据库或者说数据库跟 AIGC 结合的一个重点。
二谈:大模型时代下的向量数据库创新与挑战
为了让数据库从业者能够更快跟上 AIGC 时代的浪潮,腾讯云数据库专家工程师伍旭飞在《大模型时代下的向量数据库创新与挑战》主题演讲中,详解了时下主流的向量数据库与传统数据库的根本区别,也带来了腾讯向量数据库的最新实践。
伍旭飞表示,向量数据库使用的向量检索与普通数据库的检索有所不同,它采用的是相似度的检索,在许多 AI 领域具有广泛的应用,如图像检索、文本检索、语音识别、推荐系统等。而向量数据库本身与其他数据库不一样地方在于,它本身是一个智能化时代的底座,不仅仅是一个普通的存储,可以大胆预言一下,现在以 CPU 为中心,以 AI 为中心有一个新的计算平台之后需要一个全新的存储,现在存储是文件系统、数据库,下一代可能就是带 AI 能力,比如向量数据库就是一个能够与 AI 大模型直接打交道的数据库。

在这趋势下,腾讯云推出了向量数据库,采用了 Multiple Raft 的架构,支持 Flat、hnsw、IVFPQ 等算法。同时为了降低向量数据库的门槛,在向量数据库中融入了Contrastive Learning、二值化训练的方法,用自然语言来直接进行检索。不过,需要注意的是,向量数据库在实际客户应用中也存在巨大的额挑战,如 Filter 效率,以及成本和性能,都是需要不断调研和努力的方向。

三谈:支持大规模数据处理,openGauss 5.1 是如何做的?
紧接着,openGauss 开源数据库总工程师贺承汉发表了《openGauss 5.1 版本深度解读》主题演讲,分享了 openGauss 5.1 如何一步一步实现大规模数据处理的改进历程。

他表示,最新的 openGauss 5.1 版主要有以下更新:
-
在内核方面,openGauss 团队致力于性能优化,并采取了一些创新性的方法,如边缘反馈优化,以提高性能的表现。此外,其还引入了矢量共享锁,以及一些针对大页内存、OS 4K 的优化工作。
-
在用户性能方面,前几个版本引入了双向数据同步功能,实际上这是一个分布式订阅的能力。最新版本中,贺承汉表示还增加了冲突检测功能,以确保数据的一致性。此外,在数据库的最大可用模式下,其还引入了挂死处理机制,从而实现了一些小而重要的性能优化。
-
在安全方面,openGauss 支持全密态操作,以确保数据的安全。根据国家国密系统的要求,这一最新版本还加强了全栈国密支持。为了提高性能,其还进行了加解密操作的优化,特别是与操作系统和处理器的硬件协同合作,如 TD 和 TE 硬件,以提高性能。
-
另外,在防控制方面,openGauss 5.1 还引入了一些特殊用途的标签强制反馈控制,以提高系统的安全性。智能方面,我们也应用了人工智能技术,以支持运行时的风险主动发现和分析。
-
在架构创新上,基于 DataPod ,openGauss 5.1 实现百 T 规模数据处理, 进而通过持续演进DataKit 数据全生命周期管理平台,提升运维能力。
四谈:上云容灾,我们在节能减排上做了什么?
IT 基础架构从传统,虚拟化到云,意味着容灾方案和工具也需要面向云进行重构。本次论坛上,万博智云创始人/CEO王嘉发表了《上云容灾,我们在节能减排上做了什么?》主题演讲。他指出,传统容灾资源投入巨大,流程繁琐,受众面窄,而基于云的容灾方案缺失和服务生态的云技术不足,导致企业的 DRAAS(灾难恢复即服务)面临巨大挑战。

对此,万博通过 Boot in Cloud 独家技术,利用云优势更普惠的方式确保业务连续性,将系统在云端一键恢复到可用状态,可实现跨异构平台业务恢复。一旦生产系统发生故障,客户可以在数分钟内在异构云平台上把系统恢复接管业务。更为关键的是,万博通过云上容灾方案实现了大幅降低能耗,为企业实现低碳减排目标做出突出贡献。

五谈:视频平台如何构建极速统一的流批分析架构
随后,芒果 TV 产品技术中心数据技术部副总监佘一夫发表了《视频平台如何构建极速统一的流批分析架构》主题演讲。
在佘一夫看来,数仓技术架构经过了四个阶段的演进:
- 1.0 时代,采用传统的离线架构,主要用于批处理任务,以解决大规模数据处理问题,以生成分析结果。
- 2.0 时代,采用 Lambda 架构。虽然实时数据带来了便利性,但也引入了数据研发方面的复杂性,因为需要维护两种不同的数据处理代码,这增加了整个生命周期的成本。
- 第三阶段是基于 Kappa 架构,此时行业出现了不同的需求,这导致了对不同组件的需求,对于数据研发来说,需要同时维护多个组件,这进一步加大了复杂性。
- 第四阶段是基于比较流行的湖仓一体架构,我们可以通过原始数据管理,将来自不同云端的数据聚合到一起进行计算和分析。
随着数仓技术架构演进,作为视频平台的芒果 TV 在产品迭代过程中也遇到了一些挑战,如查询性能、资源成本、高并发瓶颈、维护成本、计算特性。那么,如何既要能解决当前架构的问题,又要能够满足未来数仓存算分离与引擎一体化的要求。
佘一夫表示,在 2023 年 Q1 这个时间点对多种数据引擎进行综合调研对比,StarRocks 因其稳定性高、查询速度快并且承诺存算分离开源的特点,成为其新的数据架构核心引擎最终选择。

六谈::数据库的红与黑
最后,数据库首席架构师李海翔在带来《数据库的红与黑——事务处理技术的暗礁》的主题分享中,从数据库核心技术之一的事务处理切入,围绕数据库数据的正确性(一致性)和性能深度剖析了数据库内部存在诸多问题。

对此,李海翔指出,数据库技术本身发展至今,有做得很好的地方,同时也深藏“暗礁”,这些“暗礁”主要包括:
-
数据库系统目前尚未解决其正确性实现的问题,这也让用户难以信任其数据的可靠性。各行各业都在探讨不同类型的一致性问题,如分布式系统的分布式一致性、操作系统的各种一致性问题以及数据库系统中的一致性问题。这些一致性问题异常复杂,没有一个统一的标准定义。
-
回到数据库系统,我们需要考虑全面的数据异常,只有通过综合考虑全部数据异常,才能真正洞悉问题,避免遗漏。因此,仅枚举个别现象并将其纳入数据库是不明智的做法。
-
数据异常是一种现象,其背后涉及一致性和正确性问题,而这些问题又与性能、隔离级别有关。隔离级别无法根据有限的异常来定义,因此需要重新审视隔离级别。解决这些异常问题需要数据库内的并发访问控制算法。这些算法包括基于锁的方法,如读锁和写锁,以及基于时间戳的排序算法,如PostgreSQL中的SSI算法。这些算法都旨在解决数据一致性问题。
-
需要注意的是,以前的并发访问算法只是盲目尝试解决问题,只能看到问题的一部分,无法全面理解。因此,性能无法达到理论最优。只有综合全面的数据异常情况,我们才能找到哪些地方可以进行优化,哪些地方在理论层面无法优化,从而实现最佳性能。所有这些问题都可以纳入可串行化理论体系,最终要回到并发访问控制算法上来解决。
以上,便是本次论坛的精彩内容。在如今的信息爆炸时代,数据技术的重要性愈发凸显。无论从存储、安全、分析还是应用等方面,数据技术都扮演着关键的角色,对于企业的数字化转型和创新至关重要。随着AI、云计算、大数据等领域的不断发展,我们不仅需要了解当前的技术趋势,还需要积极参与和探索,以不断应对新的挑战和机遇。只有持续关注和学习最新的数据技术发展,才能在竞争激烈的市场中保持竞争力,实现业务的成功和创新。因此,无论你是技术从业者还是企业领导,都应该把数据技术作为不断学习和改进的重要议题,以确保自己和企业能够在信息时代中蓬勃发展。
更多精彩内容,可关注 1024 官网:https://1024.youkuaiyun.com/
第四届长沙程序员节聚焦数据技术,专家们讨论了云数据库升级、向量数据库创新、大规模数据处理、云容灾解决方案及数据库一致性难题。阿里云和腾讯云分享了企业数据库构建和向量数据库实践,openGauss展示了5.1版本的性能优化,以及节能减排的云容灾策略。

被折叠的 条评论
为什么被折叠?



