- 博客(38)
- 收藏
- 关注
原创 DB-GPT V0.7.0版本更新:支持MCP协议、集成DeepSeek R1模型、GraphRAG检索链路增强、架构全面升级等
DB-GPT是一个开源的AI原生数据应用开发框架(AI Native Data App Development framework with AWEL and Agents),在V0.7.0版本中,我们对DB-GPT模块包进行架构治理,将原有模块包进行分拆,重构了整个框架配置体系,提供了更加清晰,更加灵活,更加可扩展的围绕大模型构建AI原生数据应用管理与开发能力。
2025-03-26 15:12:16
1409
原创 DeepSeek 3FS解读与源码分析(5):客户端解读
这样的好处和坏处都很鲜明:好处是 SDK 的实现能避免跨进程的通信开销,性能能达到理想的极限;这同时也是 USRBIO 方案的好处,它的客户端这一侧 API 相对较薄,逻辑也相对稳定,没有太多升级的压力,另外 Fuse 进程承担了和元数据以及 Storage 的通信,这样对上层推理或者训练业务的影响也就会较小。在处理过程中考虑了取消任务的设计,这里使用了一个 co_withCancellation 来封装,它能够在异步操作中优雅地处理任务取消,避免不必要的计算或资源占用,并且支持嵌套任务的取消感知。
2025-03-19 14:41:30
971
原创 DeepSeek 3FS解读与源码分析(4):Meta Service解读
在当今数字化时代,随着数据量的爆炸性增长,分布式文件系统已成为处理大规模数据存储和访问的核心技术之一。DeepSeek 开源的 3FS(Fire-Fly File System)作为一款高性能、高可用的分布式文件系统,凭借其创新的设计和强大的功能,吸引了众多开发者的关注。其中,Meta Service 作为 3FS 的核心组件之一,承担着元数据管理的关键职责,是整个文件系统高效运行的基石。在本文中,我们将深入探讨 3FS 中 Meta Service 的架构设计、关键特性以及其实现机制。
2025-03-19 14:02:43
951
1
原创 DeepSeek 3FS解读与源码分析(3):Storage模块解读
2025年2月28日,DeepSeek 正式开源其颠覆性文件系统Fire-Flyer 3FS(以下简称3FS),重新定义了分布式存储的性能边界。本文将结合代码和design_notes 对storage部分进行分析和探讨。
2025-03-14 15:04:36
928
原创 大模型存储的 “最后一公里” :蚂蚁大模型存储加速系统 PCache 如何解决万亿参数训练难题?
本文尝试通过当前学术和工业界在大模型存储领域的关注点和相关工作,并结合蚂蚁大模型训练场景实际的需求和问题,来介绍蚂蚁是如何在多云环境里构建一套具备高可用性、高性能以及低成本的云原生 AI 存储加速系统 PCache;并通过该存储方案在蚂蚁支持了百亿文件规模的多模态和万亿参数的 MOE 训练任务。
2025-03-07 18:23:24
963
原创 Deepseek 3FS解读与源码分析(2):网络通信模块分析
本文基于 3FS 网络通信模块的机制原理和源代码进行了初步分析。整体来说 3FS 的实现涉及到非常多的细节优化,通信模块和存储模块的设计环环相扣,交相呼应,展示了极高水平的存储架构设计。
2025-03-04 18:20:26
1578
原创 DeepSeek 3FS解读与源码分析(1):高效训练之道
https://github.com/deepseek-ai/3FS/blob/main/docs/design_notes.md3FS 满足 AI 处理过程中的大部分场景:Training data preprocessing数据集的预处理需求。Dataset loading训练过程中的数据集读取需求 。Checkpointing训练过程中,高并发 checkpoint 文件的写入。KVCache for Inference为 KVCache 提供了比 DRAM 更加经济的替代方案,提供更低的成本和更大的
2025-03-04 17:32:46
1038
原创 交了个新朋友!DB-GPT 牵手 Gitee AI,加速数据智能应用开发落地
近日,DB-GPT 与Gitee AI 正式达成合作,在 DB-GPT 平台中开发者能够更便捷地使用 Gitee AI 提供的丰富模型资源,加速从模型选择到应用落地的开发流程。
2025-01-13 18:18:23
686
原创 请回答 2024,属于 DB-GPT 开发者与用户的年度记忆
2022 年 11 月,ChatGPT 横空出示,这也打开了大模型的潘多拉魔盒。对技术人来讲,这是最好的时代,我们目睹了无数的惊喜,看到了技术的 ♾️ 种可能。DB-GPT 在这样的土壤下被播种,我们赋予了“她”最美好的祝愿和对未来的无限想象。在 2024 这一年里,DB-GPT 迎来了全新的进化,岁末年初,我们想邀请你共同回顾属于 DB-GPT 用户和开发者的 2024 年度记忆。
2025-01-10 15:04:27
300
原创 蚂蚁数据12月大事件 | Apache HoraeDB 发布 2.0.0 版本,DB for AI 成都站顺利召开...
✨ DB-GPT V0.6.3 版本更新:支持 SiliconCloud 模型、新增知识处理工作流支持 SiliconCloud 模型,让用户体验多模型的管理能力新增知识处理工作流,支持Embedding加工,知识图谱加工,混合知识加工处理ChatData 场景支持 OceanBase 向量可视化GraphRAG 社区总结优化,通过并行总结抽取提升索引构建性能ChatData 针对大宽表场景进行Schema-Linking优化聊天对话支持 max output tokens 参数。
2025-01-09 18:24:20
889
原创 万字长文讲透 RAG在实际落地场景中的优化
聚焦RAG在实际落地场景中的知识加工和检索细节,如何去优化RAG Pineline链路,最终提升召回准确率。
2024-12-31 17:27:51
1123
原创 流批一体向量化计算引擎 Flex 在蚂蚁的探索和实践
Flex是蚂蚁数据部自研的一款流批一体的向量化引擎,Flex是Fink和Velox的全称,也是Flexible的前缀,被赋予了灵活可插拔的寓意。本文将重点从向量化技术背景、Flex架构方案和未来规划三个方面展开论述。
2024-12-25 14:35:54
1545
原创 直播预告|抽丝剥茧分析 RAG 应用的落地实践优化
DB-GPT直播第6期来啦~本次分享会聚焦RAG 在实际落地场景中的知识加工和检索细节,如何去优化 RAG Pineline 链路,最终提升召回准确率。
2024-12-25 11:20:45
211
原创 DB-GPT V0.6.3 版本更新:支持 SiliconCloud 模型、新增知识处理工作流等
DB-GPT V0.6.3版本现已上线,快速预览新特性~
2024-12-21 17:34:39
1684
4
原创 当 DB-GPT 遇上 SiliconCloud:让开发者高效搭建自己的专属应用
本文将分享如何通过DB-GPT使用SiliconCloud的模型,让用户体验到强大的多模型管理能力,灵活、可扩展的AI应用管理开发能力,以及在AI应用开发过程中提供全流程的更极致的用户体验。
2024-12-21 17:19:36
1153
原创 12/21 大熊猫之都我们来了!DB-GPT、OceanBase、TuGraph三大社区一起玩转 DB+AI ~
数字化浪潮下,多点零售 SaaS 在公有云、私有化面临资源成本、运维成本等挑战,如何用 OceanBase 云原生分布式数据库应对挑战与机遇。📕。
2024-12-18 11:22:29
548
原创 DB-GPT V0.6.2 版本更新:牵手libro社区、GraphRAG图谱构建能力增强等
DB-GPT V0.6.2版本现已上线,快速预览新特性::灵活定制、轻松集成的 Notebook 产品方案。社区地址:https://github.com/difizen/libro使用教程:1.进入工作流,进入 workflow2.新建3.编写算子并执行支持三元组图谱与文档结构图谱混合分析,通过并行知识抽取提升知识图谱图谱索引构建性能。与在文档抽取token消耗,Global/Local检索性能的对比。DB-GPTGraphRAG (Microsoft)Doc Tokens4263142631Tri
2024-11-22 17:15:12
1097
原创 直播预告| 深入探索 DB-GPT GraphRAG 的设计解读与优化
关注 EosphorosAI视频号,持续获取直播最新动态,预约系列直播,与DB-GPT核心开发者一起提升项目运用能力!DB-GPT系列直播概览:第一期(10月8日):DB-GPT 架构设计与源码解读 - 陈发强第二期(10月29日):DB-GPT 智能体工作流表达式语言(AWEL)设计与源码解读 - 程方钱第三期(11月12日):DB-GPT Agent 全解析:设计、开发使用与源码深入探讨 - 杨宏俊第四期(11月26日):DB-GPT GraphRAG 设计解读与优化 - 范志东第五期。
2024-11-21 15:16:22
557
原创 从大数据到大模型:现代应用的数据范式
作者介绍:沈炼,蚂蚁数据部数据库内核负责人。2014年入职蚂蚁,承担蚂蚁集团的数据库架构职责,先后负责了核心链路上OceanBase,OceanBase高可用体系建设、NoSQL数据库产品建设。沈炼对互联网金融、数据库内核、数据库高可用体系等领域有着深厚的理解。沈炼秉承“止于至善”的理念,深耕互联网金融和数据库两个专业方向,保持着十年如一日的热情与专注。本文简介:在大数据和大模型的加持下,现代数据技术释放了巨大的技术红利,通过多种数据范式解除了数据的桎梏,使得应用程序达到了“心无桎梏,身无藩篱”
2024-11-18 17:20:27
1032
原创 独家直播|Agent 应用开发实战:从设计、开发使用,到源码解读
我们根据社区征集的问卷,票选出了最受欢迎的议题,后续我们会以双周为单位为社区同学们带来大家最感兴趣的技术议题:从等议题一网打尽。目前已放送了前6期的直播内容,后续还将持续更新~
2024-11-08 11:43:47
294
原创 蚂蚁数据10月大事件 | DB-GPT V0.6.1 更新、VSAG 发布 ANN-Benchmarks 性能测试结果...
随着秋意渐浓,我们迎来了硕果累累的十月。在金秋十月,蚂蚁数据团队也有了一些新的项目进展:DB-GPT发布了全新版本,并开启了源码解读系列直播;VSAG 向量索引库在 ANN-Benchmarks 性能测试中取得显著成绩;蚂蚁数据团队两大开源项目精彩亮相ApacheCon...
2024-11-04 16:38:15
431
原创 直播回顾|AWEL 设计与源码深度解读(视频版)
🚀 DB-GPT第二期源码解读系列直播~DB-GPT核心开发者兼架构师程方银,揭秘智能体工作流表达式语言(AWEL)的设计与源码!🌟
2024-10-31 17:51:01
565
原创 DB-GPT系列直播第二期:揭秘AWEL核心设计与源码解读!
10月29日晚7点,DB-GPT 智能体工作流表达式语言(AWEL)设计与源码解读直播!DB-GPT的核心开发者兼架构师程方银,分享实战经验,解答使用疑惑;立即行动扫码预约直播,与行业专家零距离交流~
2024-10-25 14:36:05
390
原创 DB-GPT V0.6.1 版本更新:RAG 能力更强,新增 RAG 召回和 Agent 答案评测功能
在这个版本中,我们引入了一系列创新特性,包括GraphRAG三元组检索、新增RAG召回和Agent答案评测功能,以及对OceanBase向量数据库的新版本的兼容性支持。让我们一起来看看这些新特性吧~
2024-10-25 11:48:39
1171
原创 DB-GPT 首期源码解读系列直播回顾(视频版)
🚀 DB-GPT首期源码解读系列上线啦!✨直播视频看点满满:项目发起人陈发强亲临,初次剖析架构,完整呈现从设计思考到架构逻辑的全过程,让你全面了解 DB-GPT。
2024-10-11 11:46:52
404
原创 独家直播|DB-GPT架构设计与源码解读(第一期)
陈发强,蚂蚁集团数据基础设施与智能化负责人,拥有丰富的数据技术经验与深入研究,曾领导团队攻克跨境数据精准搬迁、全球数据合规架构、超大规模仿真数据同步与闪回镜像等技术难题。2023年,他发起了DB-GPT开源项目,社区反响热烈,该社区已获得超过17k star,发表过两篇CCF-A顶会论文,1篇软著。欢迎预约直播,与DB-GPT项目作者陈发强一起,深入探索DB-GPT背后的架构设计原理及源码解读~
2024-09-29 16:41:06
342
原创 OceanBase CTO杨传辉谈AI时代下数据库技术的创新演进路径!
在「DATA+AI」见解论坛上,的精彩分享。他探讨了AI如何与数据库技术结合,以及这种融合如何推动OceanBase一体化数据库的演进。杨传辉先生将。他强调,数据库技术是IT产业的基石,它解决了数据统一和规模化的问题。第一,数据库里面用一套标准的系统、一种标准的范式抽象描述所有的应用场景。第二,是关系数据库的标准编程语言SQL,SQL极大降低了数据库应用的门槛。面对AI的挑战,OceanBase正通过一体化架构,让数据库和AI技术易于被每个人使用。
2024-09-29 16:36:54
716
原创 从数据积累到大模型的智能飞跃,你准备好了吗?
在这个数据驱动的时代,人工智能(AI)正以其独特的方式重塑我们的世界。在「DATA+AI」见解论坛上,蚂蚁集团数据基础设施与高可用负责人师文汇发表了题为《数据驱动的AI原生应用与开放框架》的主题演讲。随着大模型的出现,AI应用迎来了一次重大的变革。数据,不再仅仅是信息的载体,而是变成了智能应用成功的关键。师文汇指出,回顾应用研发方式的变革,早期以数据为核心的非智能化的应用,通常聚焦在某个特定的领域的特定问题,解决的是有明确答案的问题,比如支付、交易等业务。
2024-09-29 16:24:14
1226
原创 DB-GPT v0.6.0 版本更新,发布六大核心新特性!
DB-GPT是一个开源的AI原生数据应用开发框架(AI Native Data App Development framework with AWEL and Agents),在V0.6.0版本中,我们进一步围绕大模型提供灵活、可拓展的AI原生数据应用管理与开发能力,可以帮助企业快速构建、部署智能AI数据应用,通过智能数据分析、洞察、决策,实现企业数字化转型与业务增长。新特性AWEL协议升级2.0, 支持更复杂的编排。
2024-09-29 16:07:19
1153
1
原创 在Data-Driven时代下,如何打造下一代智能数据体系?
然而,在数智融合的新时代下,数据的生产进一步的扩展到了对日常生活点滴的细致记录与捕捉,例如可穿戴设备、智能家电及各种物联网终端所生产的数据,都在不断充实并丰富着我们的数据集合。当结构化与非结构化、各种模态的数据需要融合在一起,当各种相互关联的数据需要融合在一起,当相同或相似的数据需要融合在一起,当不同的甚至矛盾的数据需要融合在一起,而当这一切在数据规模量级呈指数级增长的情况下发生,技术挑战也随之而来。同时,对背景的捕捉也可以进一步丰富检索的场景,例如当背景是餐厅时,会显示酒的产地,历史,背后的故事等。
2024-09-29 15:14:24
774
原创 蚂蚁集团开源项目 DB-GPT 和 VSAG 惊艳亮相,引领 AI 数据革命!
包括将AWEL协议升级至2.0,支持更复杂的编排;结合TuGraph,能支持图的构建与检索,进一步增强检索的准确性与召回的稳定性,以减少大模型的幻觉,在同样的检索效果下,构建Graph的成本比业界的方案少50%的Tokens;支持意图识别、槽位填充,支持Text2NLU、Text2GQL微调等。VSAG已在蚂蚁内部百亿数据量级业务上使用,在保证同样的召回率情况下,VSAG 可以通过量化和基于磁盘的重排技术,将内存消耗降低到 HNSW(最流行的向量索引)的 1/10,从而实现生产部署成本的大幅降低。
2024-09-29 15:01:57
483
原创 外滩大会热议:AI时代数据价值转变,如何打造下一代智能数据体系?
认为,模型结构还会继续升级,大模型目前推理能力不够等众多的遗留问题,最好的解决途径可能是用合成数据,但做法不同,不应是根据原来的数据合成新的数据,而是通过大模型之间相互的对话、讨论、评价,最后产生出更好、更高质量的数据,这些数据将会大大去提升大模型的效能。数据一定程度上决定了智能的上限,这使得大模型的技术越要突破,数据技术越要与其“对齐”,大模型对数据利用的“贪婪程度”,也影响了数据的存储、生产、加工、流通、消费各个环节的技术走向。国产分布式数据库OceanBaseCTO。他表示,在过去的两年里,
2024-09-29 14:50:39
1025
原创 好玩不止《黑神话:悟空》,最科技city walk 2024外滩大会等你来逛!
9月5日,蚂蚁数据部联合上海交通大学、复旦大学于上海 2024 外滩大会举办「DATA+AI」见解论坛。 DB-GPT最新大版本重磅功能将在本次论坛正式发布。知名学者与行业领袖齐聚,带领我们在数据智能💻领域不断探索前进!
2024-08-23 17:06:18
665
原创 【早鸟票】外滩大会「DATA+AI」见解论坛高能来袭,共话数据智能新未来!
2024外滩大会「DATA+AI」见解论坛将于9月5日下午在上海世博园区拉开帷幕,本次峰会聚集了国内外顶尖院士学者、行业领军人物,围绕“Data for AI”与“AI for Data”的双主题框架,展开9场高端演讲。论坛旨在探讨 DATA 与 AI 交互融合的最新动态、行业应用及实践案例。
2024-08-19 14:18:47
603
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人