Meetup 回顾:存算引擎一体化建设

在大数据与人工智能时代,数据的生成和存储量呈指数级增长。企业面临着如何高效处理和分析海量数据的巨大挑战。在面对如此规模的数据时,数据库究竟该选择存算一体,还是存算分离架构?如何才能提升资源利用率、扩展性,降低运维成本,这是数据从业者都在思考的问题。

在第 20 期 Data Infra 研究社直播活动中,我们邀请到 Databend Labs 联合创始人-吴炳锡、OPPO 存储团队文件系统负责人, CubeFS Maintainer -常亮、OPPO 对象存储研发工程师, CubeFS ObjectStore 主要负责人-唐德义,围绕“存算引擎一体化建设”这一主题与大家分享相关知识。通过三位专家的分享,帮助大家深入理解了大数据时代的存算引擎设计与实践,以及 CubeFS 的架构、特性与实践,Databend 和 CubeFS 的应用等。*

内容大纲:

🙋 CubeFS 文件系统架构设计及应用

  • CubeFS 的架构及特性

  • CubeFS 在 OPPO 的机器学习等业务场景的落地情况

  • 展望 CubeFS 后续的发展方向

🙋 CubeFS **对象存储**关键设计及应用

  • CubeFS 的对象存储服务架构及关键特性

  • S3 与 POSIX 语义兼容实现高效数据共享

  • 对象存储的关键应用和 S3 新特性演进

🙋 存算引擎架构实践:Databend + CubeFS

  • 理解存算一体架构的实构及应用,理解日志观测的场景

  • 理解 vector 日志收集&加载到 Databend 的流程

  • 演示 TPCH-100-SF 在 Databend + CubeFS 运行情况

  • 存算分离和存算一体的一些思考

随着数据的爆炸性增长,云存储成为了企业和个人的首选。然而,选择一个安全、可靠、高效的云存储解决方案并非易事。在这个背景下,开源对象存储 CubeFS 应运而生,它以独特的优势和特点,正在重塑云存储的未来。

常亮:CubeFS 文件系统架构设计及应用

CubeFS 最初名为储宝 FS,是国内首个开源分布式存储系统。2019 年由京东捐赠给云原生计算基金会(CNCF)开源,并在 SIGMOD 上发表工业界论文。该论文核心观点是提出了分布式的元数据缓存,解决了当时文件系统的一些痛点,例如元数据的海量存储,查询性能,以及集中式存储带来的锁问题等等。

2021 年,OPPO 开始参与到 CubeFS 社区中,主导和推进了社区运营和版本迭代,并在内部做了大量的应用。2022 年,CubeFS 正式进入 CNCF 的孵化阶段。在此期间,CubeFS 一直在持续不断地进行迭代,补充了大量产品特性,例如对 S3、HDFS 等接口协议的补充,纠删码存储子系统,稳定性提升等等。直到 2023 年底,CubeFS 认为产品已经比较成熟,向 CNCF 提出了毕业申请。目前,CubeFS 已经进入社区资质审查的最后阶段。

CubeFS 架构

添加图片注释,不超过 140 字(可选)

CubeFS 架构中模块非常多,整体上由元数据子系统(Meta Node)、数据子系统(Data Node)和资源管理节点(Master)以及对象网关(Object Node)组成,可以通过 POSIX/HDFS/S3 等接口访问存储数据。其中,数据子系统分为两部分,一个是子系统副本,另一个是纠删码 EC 存储。

今年,CubeFS 还计划推出一个分布式缓存系统,以满足公有云的加速需求,预计未来会在 CubeFS 架构中发挥比较大的作用。

添加图片注释,不超过 140 字(可选)

上图是在论文中 CubeFS 和 Ceph 做的性能对比,去年 OPPO 内部也做过一个类似的对比,基本可以保持类似的水平。大家总会有疑问,文件系统为什么没有本地磁盘快?其实这是因为文件系统、块存储都有网络开销,并且它还有元数据的管理,鱼与熊掌不可兼得。但 CubeFS 在随机写和顺序写上都有一定优势,并且在小文件写性能方面更明显一些。

CubeFS 特性

Cu

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值