11月26日,YashanDB V23.5线上发布会成功举办,期间聚焦“共享集群:高端场景下的技术突破和规模化实践”的主题,举办了一场线上大咖对话。该环节由《韩锋频道》公众号主理人、数据库行业资深专家韩锋主持,汇聚了在数据库领域深耕多年的技术专家:Oracle技术老兵、数据库资深专家罗敏,云和恩墨联合创始人兼数据库管理服务产品群总经理张乐奕,YashanDB共享集群资深技术专家同二鹏,四位专家从架构价值、技术内核、场景实践、生态合作四大维度,深度剖析共享集群的核心竞争力与国产化替代路径。

以下为对话实录精华整理,全程保留嘉宾核心观点与经典语录,只为呈现最硬核的行业洞见。

核心价值锚定
共享集群缘何稳坐核心系统“首选架构”
韩锋(主持人):当前企业核心系统升级改造时,常会面临分布式与共享集群架构的选择困境。罗敏老师作为见证Oracle RAC从诞生到普及的行业老兵,您认为RAC架构能长期占据核心系统主流地位的核心价值是什么?
罗敏:我是在2001年加入Oracle的,正好赶上RAC第一个版本随Oracle 9i发布,亲历了它在国内各行各业的落地历程。RAC架构之所以能成为核心系统的首选,核心在于三大特性:高可用性、高性能、可扩展性,更关键的是它能让数据库保持整体性,实现应用部署“大道至简”。不像分布式数据库,应用可能需要做大量改造,共享集群架构能让开发者聚焦业务逻辑,无需过多关注底层架构细节,这一点在核心系统中尤为重要。
主持人韩锋:这三个特性的确也是客户非常看重的能力。下面请张总从场景选择上来谈一谈,在实际的业务环境中,共享集群最能解决客户的哪些关键痛点?
张乐奕:我先简单提及下数据库领域目前的两大流派:一是强调单机能力的集中式架构,另一个是强调横向扩展的分布式架构。两种流派有不同的适用场景,其中分布式的适用场景很明确——如果你的业务是全球业务部署,拥有数亿级用户超大并发场景,那目前来看分布式可能是唯一合适的架构,但至少在我的经验里,这种场景并不是主流。我们不提那种需要在应用层做路由、大量修改应用才能适配的分布式数据库,我个人认为那种分布式数据库会逐渐退出市场。对应用透明在数据库层自主进行智能数据分布的分布式数据库会长期存在并继续发展,只是,成本和运维管理难度是硬伤,对很多企业而言成本投入太高,运维又过于复杂。而对于90%的行业核心系统来说,包括金融、政府、制造业等,一个能力强大的单机数据库内核就足以支撑业务。
但只是单机部署客户会担心什么?担心无法满足极致高可用及一定程度性能可扩展。很多客户选择分布式,就是因为单个节点故障时应用不会挂,而传统单机主备切换需要几十秒甚至几分钟,核心系统根本无法接受。
共享集群恰恰解决了这个痛点:既有强大的单机内核,又能实现超低应用切换(Failover)时间。云和恩墨在一体机环境中测试崖山共享集群YAC,应用恢复时间基本控制在2-10秒内,这是我觉得共享集群架构最强大的地方,也是我们认可崖山共享集群YAC的原因。
主持人韩锋:感谢张总认可崖山共享集群。在国产共享集群产品空白期,不少客户因担忧传统集中式架构高可用能力不足,而考虑用分布式架构来规避风险。但这也带来了新的挑战,在多数场景中分布式架构推高了总体拥有成本(TCO),比如改造成本高昂、运维资源无法复用等。
当前众多客户在核心系统上的首选仍是共享集群架构,其架构优势也经过大量工程实践验证,技术成熟。所以今天我们也很开心能看到国内厂商能做出类RAC产品,如崖山共享集群YAC能够达到Oracle RAC的高性能、高可用水平,也为国产化替代进入规模化商用阶段,进入核心场景做了一个良好的铺垫。
接下来想请同老师从厂商视角谈谈,YashanDB设计崖山共享集群YAC的初衷,想要解决哪些根本性问题?
同二鹏:刚前面两位老师也聊到了共享集群的优势以及不同架构间的差异对比,也是基于对国产化替代痛点的深刻洞察,崖山在成立之初就做出了一个艰难但我们认为是必要且正确的选择——做国产全自研数据库。
全自研意味着从零开始。面对一个动辄数百万行代码的数据库产品,其研发难度和资源投入无疑是巨大的。但这是一个比较坚定的选择。一方面,我们着眼于安全合规,致力于解决“卡脖子”问题;另一方面,我们认为,唯有全自研才能从根本上摒弃落后的架构设计,实现对数据库技术的完全掌控,从而具备持续创新与演进的能力。
当前国产规模化替代面临最大的难题是,如何提供和Oracle对等的产品力,并能以更低成本去完成这个事情。目前很多替代方案靠“堆硬件”或分布式策略弥补内核不足,但无法从根本上提升单节点执行能力,反而堆高了总体拥有成本(TCO)。像刚才张总也谈到,目前90%的场景,或者说数据量在几十TB至百TB级别的系统中——Oracle或者说Oracle RAC仍是更优选择。
因此,崖山提出“1:1平替”Oracle的理念。不仅是在功能和语法的兼容,更是从产品设计理念、产品能力、体系架构、运维生态和用户体验的系统性平替。崖山从一开始就在YashanDB的底层设计里植入了共享集群基因,在存储结构、事务引擎、并发锁机制、缓存协同等方面都做了前瞻性规划,这也是YAC能够快速实现技术突破、直面核心难题的根本原因。

技术内核揭秘
如何规避过度依赖Cache Fusion
主持人韩锋:谈到共享集群技术,Cache Fusion(内存融合技术)是绕不开的核心。罗敏老师能否从技术角度解读,高效的Cache Fusion设计为何关键?它直接决定了集群的哪些性能表现?
罗敏:Cache Fusion是Oracle RAC最核心的技术创新,正是它解决了早期OPS集群性能差的问题。它的工作原理很清晰:数据访问优先查本地内存(纳秒级),找不到再通过Cache Fusion查集群其他节点内存(微秒级),最后才查硬盘(毫秒级)——本质是通过层级优先级选择,规避磁盘IO瓶颈,提升响应速度。
但要注意,Cache Fusion不是“银弹”。RAC最受诟病的扩展性问题,根源就是过度依赖Cache Fusion,没有做到数据访问本地化。如果把RAC当单机用,节点间数据冲突和私网流量会激增,可能出现“1+1<1”的情况。真正的最优实践是尽量本地访问,做好节点间数据访问分离,例如基于分区技术,让不同节点访问不同数据,才能实现“1+1>1”的扩展效果。所以高效的Cache Fusion设计,核心是平衡全局缓存共享与本地访问优先级,这直接决定了集群的扩展性和整体性能。
主持人韩锋:感谢罗老师。罗老师也提及不要去神话某一技术,应该通过对Cache Fusion原理的了解去发挥他最大的作用,才能扬长避短,提高共享集群架构的扩展能力。接下来请问同二鹏老师,针对传统架构的痛点,崖山共享集群YAC在Cache Fusion机制上做了哪些创新突破?
同二鹏:首先我们完全认同“本地缓存访问性能最优”的原则,因此崖山共享集群YAC的核心优化思路就是“本地化”,并通过自研事务引擎重构Cache Fusion工作模式:
第一,事务状态本地化:YAC采用去中心化的事务管理机制,每个实例拥有独立的私有UNDO表空间,管理本实例的业务历史数据和事务信息,减少跨实例事务交互。
第二,轻量级可见性判断:YAC采用基于时间戳的同步机制,仅在事务提交或页面传递时做轻量时间同步,就能保证全局数据一致性,避免复杂的分布式锁开销。
第三,事务槽位锁(XSLOT)设计:YAC在数据页面中嵌入事务槽位锁,事务信息随跨实例页面传输同步传递,减少实例间的额外信息交互,提升访问效率。
第四,批量化redo处理:在高并发场景下,数据块传输频繁,YAC将脏块传输中的redo日志做批量化异步处理,提升IO通透性和整体性能。
这些优化本质上是让Cache Fusion的核心操作尽量在本地完成,从根源上规避传统架构中跨实例交互频繁的问题,这也是YashanDB V23.5在扩展性和高性能上实现突破的关键。
主持人韩锋:国产共享集群正处于技术突破与生态构建的关键阶段,软硬协同创新也是一个重要突破口。想请问张总,云和恩墨作为崖山重要合作伙伴,目前合作有哪些阶段性成果?
张乐奕:我们与崖山的合作可以用“天然适配”来形容。云和恩墨的zData X一体机内置了专为企业级数据库设计的zStorage分布式存储,但之前一直缺少类RAC架构的国产共享集群产品来发挥其性能优势。
崖山共享集群YAC的出现完美解决了这个问题。目前双方已完成全部联合测试,推出了“zData X + YashanDB YAC”软硬一体化方案:在“2计算节点+3存储节点”配置的zData X 3.5上,默认8k块大小可提供超过500万IOPS,延迟低至0.3毫秒。更重要的是,这套方案开箱即用,YAC本身安装简单,结合一体机的可视化管理界面,进一步降低了部署和运维成本。
性能测试结果也让我们非常惊喜:YAC单节点tpmC可达230多万,双节点压测能到345万,实现了75%的性能线性比——这在共享集群架构中是非常出色的表现。此外,我们还做了全面的破坏性测试,即使强制关闭一个计算节点,应用会话也能在15-16秒内自动切换到存活节点,tpcc压测无缝续跑,充分验证了YAC的高可用能力。
目前云和恩墨和崖山的“zData X + YashanDB”合作进展非常顺利,也期待能尽快在客户侧上线用起来。

规模化商用验证
YAC如何适配核心场景
主持人韩锋:罗敏老师能否分享一个RAC的典型应用场景,以及如何才能真正用好RAC,充分发挥其架构优势?
罗敏:首先IT系统是一个整体,成功落地必须结合具体行业的业务场景,做到扬长避短,才能规避前面提及的Cache Fusion性能不足问题。如果你把RAC当作单机来用,这种部署方式是达不到最佳效果的,一定要在不同节点访问不同的数据,才能实现最优性能。我印象最深的是某金融核心系统,早期部署RAC时没有做数据分区,所有节点都随机访问全量数据,导致节点间私网流量暴增,性能甚至不如单机。
此外,因为RAC的高可用只是Oracle MAA(Maximum Availability Architecture)架构的一个环节,它能解决主机或系统故障,但不具备容灾能力、防人为误操作能力和在线变更能力。所以国产数据库如果要对标Oracle,不仅要做好集群本身的高可用,还要构建完整的高可用体系,同时引导用户做好应用部署和数据架构设计,才能真正发挥共享集群的价值。
主持人韩锋:感谢罗敏老师的分享,Oracle RAC架构在国内有着丰富的优秀实践,也为国产共享集群提供了宝贵的经验参考。
罗老师对国产数据库也提出了更高的体系化要求,那接下来也想问问崖山的同二鹏老师,崖山共享集群YAC与其他同类技术方案相比,YAC的差异化优势体现在哪里?
同二鹏:YAC的核心优势是“全面性”,从部署架构到分层设计,构建了全栈高可用能力,同时保持极致的应用兼容性:
在扩展性上,YAC支持“轻量级适配”:无需修改SQL语句,仅通过业务部署调整和表分区设计,就能实现极致扩展;如果用户不需要极致扩展性,也可以透明接入,内核会在计划层、执行层自动优化,让数据访问尽量本地化。
在高可用上,YAC是系统性设计而非单点功能:部署形态上支持主备共享集群、同城双活、两地三中心容灾方案;架构分层上,应用连接层提供负载均衡、TAF、SCAN与VIP能力,实现故障透明切换和在线扩缩容;服务层支持实例故障在线恢复;存储层通过YFS文件系统提供多副本冗余;还具备全维度闪回能力(库级、表级、事务级闪回及闪回查询),可防范人为误操作。
这种全面的设计,让崖山共享集群YAC不仅能解决传统集群的性能和扩展痛点,更能满足核心系统对高可用、数据一致性的严苛要求,真正具备规模化商用能力。
主持人韩锋:从同老师的分享中,我也总结出了一个关键词——全面。崖山从应用连接层、服务层、存储层等多个方面都有不同的技术实现来保障YAC高可用能力,这是一套完整、体系化的设计,而非单点突破。我想,这正是YashanDB V23.5版本敢于提出YAC已具备规模化商用能力的底气所在。
最后想请张总分享一下,未来云和恩墨与YashanDB的合作展望,以及对用户的选型建议?
张乐奕:正如前面提到的,共享集群架构比分布式更适合90%的企业核心系统,因此我们的合作展望和目标都很明确。如果说Oracle数据库国产化替代已进入核心场景,那么YashanDB YAC就是当下最理想的替代选择。
未来云和恩墨和崖山将深化“产品+服务+解决方案”的全面战略合作,把“zData X + YashanDB YAC”的软硬一体化方案推向更多行业客户,让用户享受到“开箱即用、高性能、易运维”的价值。
同时我个人也非常佩服崖山的研发实力。RAC架构看似原理简单,实则实现难度极大,从理解其功能设计,到内部原理实现,再到交付一个成熟、完整、稳定的产品,甚至在某些方面实现优化,都需要极其硬核的技术能力。而YAC不仅做到了兼容,并在各个层级做了优化通过。
我也相信,一个数据库只要能越来越多地让用户了解他们产品和理念,就会有越来越多的用户喜欢它。这也是当年Oracle如此吸引人的一个重要原因。崖山已经支持了10053、10046等深度诊断能力,期待未来能提供更丰富的可观测性工具。崖山依靠自己的研发实力,把这些都扎实做出来,那一定是未来可期。

写在最后
这场深度对话让我们清晰看到:共享集群凭借高可用、高性能、易扩展的核心优势,仍是90%以上企业核心系统的最优解。崖山共享集群YAC通过全自研路线构建的技术内核、本地化创新的Cache Fusion机制、全栈分层的高可用设计,以及与云和恩墨等伙伴的生态协同,不仅实现了对Oracle RAC的1:1系统性平替,更在高可用、性能、扩展性和部署成本上形成差异化优势。
随着YashanDB V23.5的发布,YAC已完全具备核心系统规模化商用能力,为企业核心系统国产化替代提供了成熟、可靠、高性价比的选择。未来,在更多行业专家的见证与生态伙伴的支持下,YashanDB将持续深耕共享集群技术,推动国产数据库从“形似”走向“神似”并最终超越,为中国企业的数字化转型保驾护航。
811

被折叠的 条评论
为什么被折叠?



