- 博客(137)
- 收藏
- 关注
原创 DeepSeek 3FS 与 JuiceFS:架构与特性比较
大规模 AI 训练中最主要的需求是高读带宽,为此 3FS 采用了性能优先的设计策略,将数据存储在高速磁盘上,并且用户需要自行管理底层数据存储。这种方法提升了性能,但成本较高,维护也更繁重。此外,为了充分发挥底层硬件的性能,其架构实现了客户端到网卡的零拷贝,利用共享内存和信号量减少 I/O 延迟和内存带宽占用。此外,通过带 TLS 的 I/O buffer pool 和合并网络请求,3FS 增强了小 I/O 和文件元数据操作的能力,并引入了性能更优的 RDMA 技术。
2025-03-18 13:19:57
995
原创 稳定且高性价比的大模型存储:携程 10PB 级 JuiceFS 工程实践
在过去两年多的时间里,随着 AI 大模型的快速发展,JuiceFS 在携程内部得到了越来越多 AI 用户的关注。目前,携程通过 JuiceFS 管理着 10PB 数据规模,为 AI 训练等多个场景提供存储服务。本文将介绍携程如何使用 JuiceFS,以及基于 JuiceFS 实现的关键管理能力,包括多租户权限管理、计费功能、故障排查和监控等方面。同时,还将分享 3 个生产环境中的排障案例。
2025-03-10 11:59:29
856
原创 FUSE,从内核到用户态文件系统的设计之路
FUSE(Filesystem in Userspace)是一个允许用户在用户态创建自定义文件系统的接口,诞生于 2001 年。FUSE 的出现大大降低了文件系统开发的门槛,使得开发者能够在不修改内核代码的情况下实现创新的文件系统功能。JuiceFS 就是基于 FUSE 构建的高性能分布式文件系统,充分发挥了 FUSE 的灵活性和扩展性。
2025-02-27 16:40:41
1065
原创 加速 AI 训推:Lepton AI 如何构建多租户、低延迟云存储平台
Lepton AI 是一款面向开发者的 AI 平台,旨在提供易用、高效且可扩展的基础设施能力。该平台适用于各种训练、推理需求,GPU充足,在保证高性能的同时,能够灵活应对不断变化的工作负载。用户可以快速在 Lepton 平台上部署推理服务和执行训练任务,无需关注基础设施和稳定性问题。作为一家初创公司,Lepton AI 致力于在云端为企业提供领先的 AI 推理与训练技术,而在存储这类基础设施建设,希望能够在市场上找到合适的供应商,以保障更高效的产品研发。
2025-01-17 10:45:51
1062
原创 多云架构,JuiceFS 如何实现一致性与低延迟的数据分发
随着大模型的普及,GPU 算力成为稀缺资源,单一数据中心或云区域的 GPU 资源常常难以满足用户的全面需求。同时,跨地域团队的协作需求也推动了企业在不同云平台之间调度数据和计算任务。多云架构正逐渐成为一种趋势,然而该架构下的数据分发面临一系列挑战。
2025-01-10 14:58:29
1223
原创 JuiceFS 2024:开源与商业并进,迈向 AI 原生时代
即将过去的 2024 年,是 JuiceFS 开源版本推出的第 4 年,企业版的第 8 个年头。回顾过去这一年,JuiceFS 社区版依旧保持着快速成长的势头,GitHub 星标突破 11.1K,各项使用指标增长均超过 100%,其中文件系统总数量较前一年更是增长了 8.5 倍;。2024年,随着 AI 技术的迅猛发展,AI 正逐渐成为企业发展的新基建,企业的基础架构正朝着 AI 原生化趋势迈进。在这一变革的推动下,JuiceFS 社区也迎来了显著的增长。
2025-01-08 10:48:26
1237
原创 缓存管理自动化:JuiceFS 企业版 Cache Group Operator 新特性发布
近期,JuiceFS 企业版推出了 Cache Group Operator,用于自动化创建和管理缓存组集群。Operator 是一种简化 Kubernetes 应用管理的工具,它能够自动化应用程序的生命周期管理任务,使部署、扩展和运维更加高效。
2024-12-27 14:23:54
1300
原创 从 CephFS 到 JuiceFS:同程旅行亿级文件存储平台构建之路
随着公司业务的快速发展,同程旅行的非结构化的数据突破 10 亿,在 2022 年,同程首先完成了对象存储服务的建设。当时,分布式文件系统方面,同程使用的是 CephFS,随着数据量的持续增长,CephFS 的高复杂性和运维难度逐渐成为瓶颈。考虑到可观测性、稳定性和管理效率等维度,同程最终决定转向 JuiceFS。目前,同程已在 JuiceFS 上构建了一个企业级存储平台,平台规模涵盖了超过 20 个文件系统和 2000 多个客户端挂载点,能够高效管理亿级文件和百 TiB 级别的数据量。
2024-12-13 15:16:47
1065
原创 Conda + JuiceFS :增强 AI 开发环境共享能力
本文简要分享了在多机环境下,如何利用 JuiceFS 复用 Conda 虚拟环境的具体方法与注意事项。希望这篇文章中的技巧和经验能够为读者的日常开发和团队协作提供帮助,并提升工作效率。我们鼓励感兴趣的读者亲自动手尝试,并在实践中探索更多的优化方式。如果您在配置和使用过程中遇到任何问题,欢迎前往 JuiceFS 用户社区进行反馈、提问与交流。您的问题和分享将有助于推动整个社区的进步。
2024-12-06 15:17:30
567
原创 使用 JuiceFS 快照功能实现数据库发布与端到端测试
今天的博客来自 JuiceFS 云服务用户 Jerry,他们通过使用 JuiceFS snapshot 功能,创新性地实现了数据的版本控制。Jerry,是一家位于北美的科技公司,利用人工智能和机器学习技术,简化用户购买汽车和家庭保险的比较及购买流程。在软件开发领域,严格的测试和受控发布已经成为几十年来的标准做法。但如果我们能将这些原则应用到数据库和数据仓库中会怎样?想象一下,能够为数据基础设施定义一套带有测试用例的标准,自动应用于每个新的"发布",以确保客户始终看到准确和一致的数据。
2024-11-15 14:36:39
725
原创 海柔仿真系统存储实践:混合云架构下实现高可用与极简运维
海柔创新是一家专注于箱式仓储机器人系统的研发和设计的科技公司,其仿真平台通过数字模拟技术,再现实际仓库环境和设备,利用导入的地图、订单、库存及策略配置等数据来验证和优化仓储解决方案,确保设计方案的效率和合理性。最初,海柔的仿真平台在单机环境中运行,但随着数据量的增长,运维逐渐面临挑战。因此,平台被迁移到私有云的 Kubernetes 环境中,团队随后开始寻找适合在 k8s 环境中运用的分布式文件系统。仿真平台的数据特征包括:大量小文件、并发写入、跨云架构等。
2024-11-11 14:29:11
653
原创 好未来:多云环境下基于 JuiceFS 建设低运维模型仓库
在推理场景下,整个模型仓库需要挂载到容器中。如果客户端的挂载权限过大(例如挂载了一个包含大量模型的目录),就可能导致模型泄露或误删除的问题。特别是当挂载方式为可读可写时,客户端甚至有可能删除模型文件。由此衍生出不同场景对模型仓库的存储需求。
2024-11-08 10:48:49
1068
原创 JuiceFS CSI:Mount Pod 的平滑升级及其实现原理
鉴于目前的有损升级方案存在诸多缺陷,JuiceFS CSI Driver 在 v0.25.0 版本中,支持了 Mount Pod 的平滑升级。CSI 提供了两种平滑升级方案,包括二进制升级和 Pod 重建升级。二进制升级风险小,但不支持更新 Mount Pod 的其他配置;Pod 重建升级在集群环境较复杂的情况下有失败的风险,但支持更新 Mount Pod 的其他配置,比如可以根据 Mount Pod 的实际资源使用情况,动态调整资源配比等。
2024-11-01 10:47:20
826
原创 vivo 轩辕文件系统:AI 计算平台存储性能优化实践
在早期阶段,vivo AI 计算平台使用 GlusterFS 作为底层存储基座。随着数据规模的扩大和多种业务场景的接入,开始出现性能、维护等问题。为此,vivo 转而采用了自研的轩辕文件系统,该系统是基于 JuiceFS 开源版本开发的一款分布式文件存储方案。本文将介绍 vivo 轩辕文件系统在 JuiceFS 基础之上开发的新特性。以及 vivo 针对一些关键场景,如样本数据读取速度慢和检查点写入环节的优化措施。
2024-10-25 15:30:57
1309
原创 详解 JuiceFS 在多云架构下的数据同步与一致性
随着大模型流行,GPU 算力资源正变得日益稀缺,传统的“算力跟着存储跑”的策略需要转变为“存储跟着算力跑”。为了确保数据一致性和管理的便捷性,企业通常在特定地区的公有云上选择对象存储作为所有模型数据的集中存储点。当进行计算任务调度时,往往需要人工介入,手动进行数据拷贝和迁移方法不仅成本高昂,还存在管理和维护的复杂性,包括权限控制等问题都极为棘手。JuiceFS 企业版的 “镜像文件系统” 功能允许用户从一个地区自动复制元数据到多个地区,形成一对多的复制模式。
2024-10-18 14:21:14
1439
原创 大模型存储选型 & JuiceFS 在关键环节性能详解
从去年开始,LLM大语言模型领域发展迅速、如 LLaMA、ChatGLM、Baichuan、Qwen 和 yi-model 等基础模型(Foundation Models)的数量显著增加。众多企业也开始基于这些基础模型做 post-training 的相关工作,以开发特定垂直领域的模型实现应用落地。AI 模型的参数规模呈指数级增长,出现了越来越多的千亿甚至万亿参数的通用大模型。
2024-10-11 15:00:36
623
原创 Hugging Face + JuiceFS:多用户多节点环境下提升模型加载效率
本文介绍了 JuiceFS 作为 Hugging Face Transformers 的数据缓存目录的两种方法,分别是将 JuiceFS 预先挂载到 Hugging Face 缓存目录,以及通过环境变量指定 Hugging Face 缓存目录。这两种方法都可以实现 AI 训练资源在多个节点间共享复用。如果你有多个节点需要访问相同的 Hugging Face 缓存数据,或者希望在不同环境中载入相同的训练资源,JuiceFS 也许是一个非常理想的选择。
2024-09-29 14:19:02
809
原创 大模型训练:K8s 环境中数千节点存储最佳实践
自 2021 年 7 月 JuiceFS CSI Driver 首次推出以来,随着 Kubernetes 用户数量的增长和集群规模的不断扩大,面对的应用场景也愈发复杂。过去三年多的时间里,我们对 JuiceFS CSI Driver 在稳定性、管理权限等关键领域进行了持续的优化和改进,这使得 JuiceFS 能够有效地适应各种复杂的需求,成为 Kubernetes 环境中数据持久化的理想选择。
2024-09-25 15:30:35
1370
原创 性能、成本与 POSIX 兼容性比较: JuiceFS vs EFS vs FSx for Lustre
JuiceFS 是一款为云环境设计的分布式高性能文件系统。易于使用且可伸缩,适用于多种应用。则是面向处理快速和大规模数据工作负载的高性能文件系统。在本文中,我们将通过一系列测试,来评估这三种主流文件系统的性能与成本表现,帮助用户快速了解这些产品。
2024-09-04 17:15:22
2813
原创 MiniMax:如何基于 JuiceFS 构建高性能、低成本的大模型 AI 平台
MiniMax 成立于 2021 年 12 月,是领先的通用人工智能科技公司,致力于与用户共创智能。MiniMax 自主研发了不同模态的通用大模型,其中包括万亿参数的 MoE 文本大模型、语音大模型以及图像大模型。基于不同模态的通用大模型,MiniMax 推出生产力工具 “海螺 AI” 、沉浸式 AI 内容社区 “星野” 等原生应用。MiniMax 开放平台为企业和开发者提供安全、灵活、可靠的 API 服务,助力快速搭建 AI 应用。
2024-09-02 16:57:01
1234
原创 Clobotics 计算机视觉场景存储实践:多云架构、 POSIX 全兼容、低运维的统一存储
Clobotics 是一家将计算机视觉和机器学习技术应用于风电以及零售行业的企业。在风电行业,Clobotics 利用无人机对风力发电机叶片进行检查,显著降低了对人工作业的依赖。在零售领域,公司通过分析捕获的包装商品图像来提供基于实时数据的洞察,以增加销售额并减少运营成本。存储方面,Clobotics 原本直接使用云 SDK,而部分系统则使用了内部的封装器,没有形成统一的存储层,同时还面临多云架构、海量小文件、兼容性方面的挑战。
2024-08-30 14:14:26
1589
原创 JuiceFS 在多云架构中加速大模型推理
下图是一个典型的大模型推理服务的架构。我们可以观察到几个关键特点。首先,架构跨越多个云服务或多个数据中心。目前在大模型领域, GPU 资源紧张,多数厂商或公司倾向于采用多云、多数据中心或混合云的策略来部署他们的推理服务。另一个特点是,为了确保数据一致性和管理的便捷性,会在特定地区选择公有云的对象存储作为所有模型数据的存储点。当进行推理任务调度时,可能会选取特定云服务进行任务调度。数据模型的拉取过程需要人工介入,如提前进行数据拷贝。
2024-08-23 14:26:41
3213
1
原创 如何判断数据库和对象存储是否被 JuiceFS 使用?
以上两个场景分别介绍了如何判断已有的数据库和对象存储是否被 JuiceFS 使用,掌握了这些技巧,相信读者可以更好地管理 JuiceFS 文件系统,避免误删、误操作等问题。使用单机数据库作为元数据引擎时,数据库命名尽量有意义和简短。这样既方便识别,又方便后续使用;预计会长期使用的文件系统,数据库和 Bucket 建议让 JuiceFS 独享,尽量不要与其他应用共享使用,避免潜在的误操作和使用冲突;
2024-08-16 14:49:23
918
原创 如何在 Kubernetes 中使用 ClickHouse 和 JuiceFS
ClickHouse 结合 JuiceFS 一直是一个热门的组合,社区中有多篇实践案例。今天的文章来自美国公司 Altinity,一家提供 ClickHouse 商业服务的企业,作者是 Vitaliy Zakaznikov,他尝试了这个组合并公开了过程中使用的代码。原文有两篇文章,“”、“JuiceFS 是一个兼容 POSIX 的文件系统,能够在 S3 对象存储上运行。作为一个分布式且云原生的文件系统,它具备多种功能,包括数据一致性、传输与静态加密、BSD 和 POSIX 文件锁,以及数据压缩。
2024-08-02 15:39:08
1191
原创 一文详解 JuiceFS 读性能:预读、预取、缓存、FUSE 和对象存储
JuiceFS 社区版架构分为客户端、数据存储和元数据三部分。数据访问支持多种接口,包括 POSIX 、HDFS API、S3 API,还有 Kubernetes CSI,以满足不同的应用场景。在数据存储方面,JuiceFS 支持几十种对象存储,包括公共云服务和自托管解决方案,如 Ceph 和 MinIO。元数据引擎支持多种常见的数据库,包括 Redis、TiKV 和 MySQL 等。企业版与社区版的主要区别在图片左下角元数据引擎和数据缓存的处理。
2024-07-26 14:07:33
2610
1
原创 小文件写入性能 5 倍于 S3FS,JuiceFS 加速生信研究
在生物信息学研究领域,NextFlow 是一款主流数据分析工具,广泛应用于多种研究项目。MemVerge,内存融合基础架构厂商,其公有云计算平台产品 Memory Machine Cloud (MMCloud) 无缝集成了 NextFlow,为生物信息学家提供了自动化的高性能计算、checkpoint/restore 功能和云主机选型优化,使他们无需适应新的复杂基础设施管理环境。
2024-07-24 16:35:39
2084
1
原创 JuiceFS 直连 NFS 新功能介绍,赋能 NAS 进行 AI 训练
JuiceFS v1.2.0 版本新增的直连 NFS 存储功能,让 JuiceFS 可以更好的与 NAS 配合使用,提升了 JuiceFS 对 NFS 的兼容性,同时也为企业提供了更简易的存储解决方案。用户可以利用现有的存储资源在本地构建高性能、高可用的分布式文件系统,为 AI 模型训练、数据分析等场景提供更好的支持。欢迎大家下载试用 JuiceFS v1.2.0 版本,体验直连 NFS 创建文件系统,为本地 AI 模型训练提供强大动力!
2024-07-19 13:31:49
905
原创 seaweedfs + TiKV 部署保姆级教程
在使用 JuiceFS 时,我们选择了 SeaweedFS 作为对象存储,以及 TiKV 作为元数据存储,目前在 SeaweedFS 上已经存储了近1.5PB 的数据。关于 SeaweedFS 和 TiKV 配置的参考资料不多,本文将为社区各位用户提供我们的部署实践,并提供详细的命令示例,希望能给社区各位用户一些参考。此外,在文章的最后会附上我们通过多个文件实现配额管理以及在 JuiceFS 文件系统内进行跨机房数据迁移的实践。
2024-07-12 15:04:48
878
原创 基于 JuiceFS 构建高校 AI 存储方案:高并发、系统稳定、运维简单
由于我们使用 PyTorch 框架进行模型训练,如果系统支持 POSIX 接口,将极大地降低用户的学习成本,同时减少对现有代码的改动。
2024-06-26 11:01:54
1224
原创 JuiceFS 社区版 v1.2 发布,新增企业级权限管理、平滑升级功能
JuiceFS 社区版 v1.2 今天正式发布,这是自 2021 年开源以来的第三个大版本。v1.2 也是一个长期支持版本(LTS)。我们将持续维护 v1.2 以及 v1.1 这两个版本,v1.0 将停止更新。JuiceFS 是为云环境设计的分布式文件系统,支持超过 10 种元数据引擎和 30 种以上的数据存储引擎。这些丰富的选择使得用户可以灵活应对多变的企业环境和数据存储需求;
2024-06-21 12:17:05
845
原创 贝壳找房: 为 AI 平台打造混合多云的存储加速底座
贝壳在机器学习平台建设方面起步较早,因此我们可以利用这些成熟的技术和框架来优化模型管理和分发。例如,我们已经成功将 JuiceFS 等技术应用于模型存储和管理中,进一步提升了系统的效率和稳定性。我们基于 JuiceFS 的架构设计了一套 AI 模型仓库方案。
2024-06-12 16:22:56
989
原创 稳定、省钱的 ClickHouse 读写分离方案:基于 JuiceFS 的主从架构实践
Jerry 是一家位于北美的科技公司,利用人工智能和机器学习技术,简化汽车保险和贷款的比价和购买流程。在美国,Jerry 的应用在其所属领域排名第一。随着数据规模的增长,Jerry 在使用 AWS Redshift 时遇到了一些性能与成本的挑战。Jerry 重新设计了系统架构,使用 ClickHouse 后,数据查询性能提升了 20 倍,并大幅降低了成本。但在使用过程中也遇到了磁盘损坏和数据恢复等诸多存储挑战。作为初创公司,Jerry 希望避免对 ClickHouse 集群进行大量的维护工作。。
2024-05-17 11:01:34
798
原创 详解 JuiceFS sync 新功能,选择性同步增强与多场景性能优化
JuiceFS sync 是一个强大的数据同步工具,支持在多种存储系统之间进行并发同步或迁移数据,包括对象存储、JuiceFS、NFS、HDFS、本地文件系统等。此外,该工具还提供了增量同步、模式匹配(类似 Rsync)、分布式同步等高级功能。在最新的 v1.2 版本中,针对 Juice sync 我们引入了多项新功能,并对多个场景进行了性能优化,以提高用户在处理大目录和复杂迁移时的数据同步效率。
2024-05-15 10:31:03
780
1
原创 JuiceFS v1.2-beta1,Gateway 升级,多用户场景权限管理更灵活
JuiceFS 将文件分块存储到底层的对象存储中,向用户提供 POSIX 接口访问 JuiceFS 中的文件。当用户需要同时用 S3 兼容接口访问文件时,就需要用 JuiceFS Gateway。在本次 JuiceFS 1.2-beta1 版本中,我们对 Gateway 功能新增了两项备受期待的模块:身份和访问管理(IAM):支持多用户的管理和访问控制,支持匿名访问控制;事件通知:可以使用桶事件通知来监控桶中对象发生的事件。
2024-05-06 10:42:15
1177
原创 如何使用 Grafana 监控文件系统状态
本文主要介绍了如何使用 Grafana Cloud 为 JuiceFS 搭建可视化的状态监控系统,为了满足不同经验背景的读者需要,每个环节尽量选择最简单的方式来实现。事实上,任何 IT 系统的搭建都是一个个选择堆叠而成。不难发现,在本文介绍的步骤中,有很多环节是可以有其他的选择,比如,Prometheus 的数据上报方式,文中选择了 Grafana Agent,而读者还可以选择用本地自建的 Prometheus。所以,本文只是抛砖引玉,最终的部署和使用方法还是需要读者自己灵活选择和搭配。
2024-04-12 14:46:29
1002
原创 大模型存储实践:性能、成本与多云
大模型应用领域的迅猛发展,也推动着基础技术领域持续探索和进步。文件存储服务在 AI 基础设施中成为不可或缺的重要部分。在过去 18 个月的时间里,JuiceFS 团队与 MiniMax,阶跃星辰,智谱 AI,面壁智能,零一万物等大模型团队展开了交流与合作,已经支持了多家客户生产环境中数千卡的训练任务。在这篇文章中,我们将分享大型语言模型在存储领域面临的一些挑战与 JuiceFS 在服务这些场景时的实践经验,为相关企业提供参考。
2024-04-07 14:59:38
1285
原创 知乎:多云架构下大模型训练,如何保障存储稳定性?
知乎,中文互联网领域领先的问答社区和原创内容平台,2011 年 1 月正式上线,月活跃用户超过 1 亿。平台的搜索和推荐服务得益于先进的 AI 算法,数百名算法工程师基于数据平台和机器学习平台进行海量数据处理和算法训练任务。为了提高系统的易用性和灵活性,知乎实施了多云混合部署架构,允许不同云上的作业和服务透明地处理文件,且用户可以在容器中灵活与文件交互,无需关注文件的具体存放位置。
2024-03-28 14:01:16
1215
原创 在 Google Colab 中使用 JuiceFS
本文介绍了如何在 Google Colab 中使用 JuiceFS 来持久化保存数据,通过实例介绍了如何为 JuiceFS 准备元数据引擎和对象存储来尽量发挥它的性能,以及在 Colab 中的安装和挂载方法。最后通过 Fooocus 和 Chroma 两个例子,演示了在实际应用中如何利用 JuiceFS 来更好地保存并重复利用数据。希望这篇文章的内容能够对你起到一定的帮助,如果你有任何疑问,欢迎在评论区留言讨论。如果你对 JuiceFS 有兴趣,可以查看官方文档了解更多用法和性能调优方面的内容。
2024-03-22 15:13:50
1142
原创 从 HPC 到 AI:探索文件系统的发展及性能评估
随着 AI 技术的迅速发展,模型规模和复杂度以及待处理数据量都在急剧上升,这些趋势使得高性能计算(HPC)变得越来越必要。HPC 通过集成强大的计算资源,比如 GPU 和 CPU 集群,提供了处理和分析大规模数据所需的算力。然而,这也带来了新的挑战,尤其是在存储系统方面,包括如何有效处理大量数据、确保数据访问的高效性以及如何控制成本和运维管理。。它们通过跨多个节点分布存储资源,有效地处理和管理大数据集,满足 HPC 对数据存取速度的高要求。
2024-03-06 11:07:28
2565
原创 千卡利用率超98%,详解JuiceFS在权威AI测试中的实现策略
2023 年 9 月,AI 领域的权威基准评测 MLPerf 推出了。该基准测试通过模拟机器学习 I/O 负载的方法,在不需要 GPU 的情况下就能进行大规模的性能压测,用以评估存储系统的在 AI 模型训练场景的适用性。目前支持两种模型训练:BERT (自然语言模型) 和 Unet3D(3D医学成像)。
2024-02-28 10:46:47
1037
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人