自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(358)
  • 收藏
  • 关注

原创 Databend 数据写入实测:从 3千行/秒 到 230万行/秒,4种方式该怎么选

本文对比了Databend支持的四种数据写入方式性能差异及适用场景:INSERT(云上直接写入对象存储)、INSERT_NO_PRESIGN(私有化转发写入)、STREAMING_LOAD(实时流式写入)和STAGE_LOAD(批量加载)。测试显示STREAMING_LOAD在200k批次可达127k行/秒,STAGE_LOAD最高达800k行/秒。建议私有化场景优先考虑简单实现,云上则应结合成本选择INSERT或STAGE_LOAD以节省流量费用,避免使用可能产生高成本的INSERT_NO_PRESIGN

2026-01-07 14:36:29 737

原创 Databend 2025:海量数据 × AI 一体化底座,v1.3 即将发布

Databend 正式从单一数仓进化为 Analytics + Search + AI 一体化数据库,v1.3 版本即将发布

2026-01-06 15:24:52 319

原创 Databend UDF的StageLocation支持

Databend 增加非结构化数据和AI整合的处理方案

2025-12-23 09:29:31 854

原创 构建海量记忆:基于 Databend 的 2C Agent 平台 | 沉浸式翻译 @ Databend meetup 上海站回顾及思考

文章根据沉浸式翻译技专家陈琦在 Databend Meeup 上海站分享总结和思考构建。 通过本次活动也让我初步去理解 AI 长记忆体的实现及用途。 陈琦分享属于一个比较硬核的技术分享,所以在回顾这个 PPT 时,我在陈琦分享的思路的基础上长了一些案例,来帮助读者更容易理解这个实践。沉浸式翻译(Immersive Translate),作为 AI 翻译领域的头部产品,拥有近千万用户。在 Databend Meeup 上海站沉浸式翻译团队透露他们启起阶段是自我搭建一个HTAP库用于承接业务及数据分析,但面临运

2025-12-10 17:15:21 620

原创 Databend 11 月月报:多模态查询智能

Hi,Databend 的朋友们!🚀11 月,我们发布了,致力于打造更丰富的数据体验。本月上线了 TimestampTz 支持、HTTP Arrow payloads、支持 RBAC 的脱敏策略,并进行了三轮 Runtime Filter 调优,同时针对多模态负载改进了全文索引和 VECTOR 支持。现在的查询接口支持从 JSON、Arrow IPC 到几何数据等多种输出格式,助力分析团队更高效地构建多样化应用。

2025-12-04 17:33:52 1141

原创 如何打造AI时代的数据基石

Databend 通过其云原生、一体化的架构,将复杂的大数据技术栈简化为以 SQL 为核心的开发体验,从根本上降低了数据开发的门槛、成本和运维负担。它不仅是一个高性能的数据仓库,更是一个内置了流处理、任务调度和强大扩展能力的数据平台操作系统。在 AI 时代,其原生及可扩展的 AI 能力进一步使其成为企业构建智能化应用的理想数据基石,完美契合了当下企业追求降本增效和快速创新的核心诉求。构建海量记忆:基于 Databend 的 2C Agent 平台|沉浸式翻译。

2025-12-03 16:41:06 987

原创 如何打造AI时代的数据基石 | Databend Meetup 上海站

数据洪流奔涌,AI 浪潮澎湃。当 Data 与 AI 深度交织,如何构建面向未来的技术栈?如何基于亚马逊云科技构数据分析业务?11月29日「如何打造AI时代的数据基石 | Databend Meetup 上海站」 应势而来!我们力邀多位来自明星开源项目与一线大厂的资深专家,为您全景解析数据平台架构、AI 创新实践与职业发展路径,开启一场思想与技术的碰撞。

2025-11-27 17:07:22 246

原创 DATA AI Databend Meetup 2025上海站邀您共话未来

数据洪流奔涌,AI 浪潮澎湃。当 Data 与 AI 深度交织,如何构建面向未来的技术栈?如何在这场变革中抢占先机?11月29日「DATA AI Databend Meetup」 应势而来!我们力邀多位来自明星开源项目与一线大厂的资深专家,为您全景解析数据平台架构、AI 创新实践与职业发展路径,开启一场思想与技术的碰撞。

2025-11-21 11:54:59 722

原创 Databend SQL 存储过程使用指南

存储过程(Stored Procedure)是一组预编译的 SQL 语句集合,它们被保存在数据库中,可以像函数一样被重复调用。想象一下,如果你经常需要执行一系列复杂的数据处理操作,与其每次都手动输入这些 SQL 语句,不如将它们封装成一个存储过程,需要时直接调用即可。

2025-11-14 17:39:29 821

原创 Databend SQL nom Parser 性能优化

nom 是 Rust 生态中非常受欢迎的解析框架:性能优秀、组合灵活,并且能很好地利用 Rust 的类型系统。Databend 在 SQL 表达式和语句解析上大量使用 nom,开发体验不错,可读性也高。不过,组合式 parser 容易在不经意间埋下性能隐患——尤其是当多个分支结构相似、再加上递归嵌套时,回溯成本会指数级膨胀。/// 一个简单的 parser:匹配 "foo" 或 "bar"alt(())(input)合并结构相似的 parser,避免深度优先 + 回溯导致的指数级爆炸。

2025-11-14 11:45:45 1041

原创 Databend 十月月报:存储过程正式可用,数据流程全面自动化

存储过程的正式可用标志着 Databend 迈入新的阶段:从查询引擎进化为完整的数据平台。用户可以在统一的 Rust 引擎上,用 Snowflake 兼容的 SQL 语法,处理结构化分析、半结构化搜索、向量检索、地理空间分析和数据自动化——所有功能开箱即用,完全开源。我们即将推出功能,让数据表像代码一样支持分支、测试和合并,敬请期待!

2025-11-07 17:23:13 950

原创 BendSQL v0.30.3 Web UI 功能介绍

查看或创建配置文件[server]bind_address = "0.0.0.0" # 允许外部访问bind_port = 8999 # 固定端口BendSQL v0.30.3 的 Web UI 功能极大地提升了用户体验,使得 SQL 查询和性能分析变得更加直观和高效。无论是日常的数据查询还是复杂的性能调优,这个现代化的界面都能提供出色的支持。

2025-11-05 11:37:52 968

原创 Databend 九月月报:自增列 AUTOINCREMENT 与行级安全

Hi,Databend 的朋友们!🚀九月我们把重点放在了上。这个月上线了行级访问控制、Check 约束、AUTOINCREMENT 自增列、基于事务的表名交换(SWAP),还有智能的 SQL 错误提示。这些都是企业用户一直在等的功能。

2025-10-11 17:42:12 657

原创 Raft 中的 IO 执行顺序:内存状态与持久化状态的陷阱

在 Raft 实现中,处理 appendEntries 请求时需要持久化两类数据:term 和 log entries。Raft 论文要求"在响应 RPC 之前必须更新持久化状态",但并未明确说明这两类数据的持久化顺序。这个看似无关紧要的细节,却可能导致已提交数据的丢失。问题的根源在于:Raft 论文描述的是一个简单的抽象模型(只有磁盘状态),而实际实现为了性能会分离内存状态和持久化状态。这种状态分离引入了论文中未定义的行为,当 IO 操作允许重排序时,就可能破坏 Raft 的安全性保证。

2025-10-11 14:02:23 561

原创 MySQL 数据归档的技术困境与 Databend 解决之道

在企业数字化转型的浪潮中,MySQL 作为最受欢迎的开源数据库,承载着越来越多的业务数据。从最初的几百 GB,到现在动辄几个 TB 甚至数十 TB 的数据规模,MySQL 数据库的体量增长速度常常超出企业的预期。然而,一个不容忽视的现实是:这些庞大数据库中真正的热点数据往往只占 20-30%,剩下的大部分都是历史数据、日志记录和归档信息。这种现象在各个行业都很普遍。电商平台需要保留多年的订单记录用于用户查询和监管合规;金融机构必须长期存储交易流水以满足审计要求;政务系统要保存大量的办事记录和操作日志;

2025-09-19 17:33:52 768

原创 Databend 亮相 RustChinaConf 2025,分享基于 Rust 构建商业化数仓平台的探索

十年前,当 Graydon Hoare 在 Mozilla 的支持下发布 Rust 1.0 时,很少有人能预见到这门语言会在今天成为系统编程的新标杆。十年后的今天,当我们站在 2025 年的节点回望,Rust 不仅兑现了当初"安全、并发、实用"的承诺,更在商业化道路上走出了一条独特的轨迹。在刚刚结束的 RustChinaConf 2025 杭州大会上,Databend 技术 VP 陈小玉的主题演讲《基于 Rust 构建商业化数仓平台的探索》引起了与会者广泛关注。

2025-09-18 14:32:29 799

原创 基于 Databend 的实时数据汇聚平台建设

Databend 是一个类似于 Snowflake 架构的存算分离的云原生数据平台,在国内落地中帮着用户节省大量的数据基础架构投入,大大简化了。目前在国内已经替换过 CDP, Greenplum, 多种大数据平台。

2025-09-12 16:38:12 1012

原创 Databend 八月月报:向量检索重磅上线,性能飞跃几十倍

Hi,Databend 的朋友们!🚀。通过 HNSW 索引算法实现了,AI 应用终于可以在对象存储上高效运行了。结合我们已有的结构化数据和 JSON 处理能力,。

2025-09-11 17:39:28 645

原创 CRC32 自包含退化现象分析

传输数字 1234 时,如何检测错误?1234 ÷ 97 = 12 余 70余数70就是1234的指纹。校验原理数据=1234, 校验=70接收:重新计算 received % 97 的余数余数不是 70 → 检测到错误判断收到的消息正确性的方式是接收到:数据=1234, 校验=701. 计算 1234 % 97 = 702. 比较:计算余数(70) == 收到的校验码(70)?3. 相等 → 数据很可能正确4. 不等 → 数据肯定有错误。

2025-09-09 10:38:07 1102

原创 传统大数据 Hadoop 和 云原生湖仓 Databend 对比

随着数据需求的不断增加,大数据架构的演变成为了现代数据工程师的重要课题。本文将对比传统大数据架构与新一代云原生湖仓 Databend,通过对比它们在实时与离线架构中的区别,感受 Databend 的优势。

2025-09-02 18:12:38 1597 2

原创 存算分离架构重塑政务数据治理:福建大数据基于 Databend 构建一体化公共数据平台的实践探索

在数字政府建设的浪潮中,政务大数据平台正面临着前所未有的挑战与机遇。作为承载着全省 2000 多亿条公共数据资源的福建大数据一体化公共数据平台,其技术架构的每一次演进都牵动着整个数字福建建设的神经。福建大数据一级开发有限公司作为省级公共数据资源一体开发主体,在多年的实践中深刻体会到传统湖仓分离架构在政务场景下的局限性,最终通过引入 Databend 存算分离计算引擎,成功构建了真正意义上的湖仓一体化平台。

2025-09-02 09:47:17 1221

原创 吴炳锡:AI 时代下的湖仓一体化平台建设的思考

随着企业数字化转型的深入推进,实时数据仓库与湖仓一体化架构已成为现代数据平台建设的核心议题。在业务节奏日益加快的今天,企业不仅需要处理海量的历史数据,更需要实时洞察数据变化,快速响应市场需求。如何在保证数据一致性和可靠性的前提下,实现数据湖的灵活性与数据仓库的高性能完美融合,成为每一位数据架构师面临的重大挑战。在第 16 届中国数据库技术大会(DTCC2025)的「实时数仓与湖仓一体应用实践(上)」专场中,Databend 联合创始人吴炳锡带来了主题为《AI 时代下的湖仓一体化平台建设的思考》的深度分享。

2025-08-28 18:07:15 899

原创 Databend 亮相 DTCC 2025:存算分离架构引领湖仓一体化

在数字化转型加速推进的今天,实时数据仓库与湖仓一体化架构已成为企业数据平台建设的核心议题。面对海量数据的爆发式增长和日益复杂的业务需求,如何构建既能满足实时性要求,又能兼顾成本效益的现代化数据平台,成为每一位数据架构师面临的重大挑战。8月21-23日,以"智能创新 数赢未来"为主题的第十六届中国数据库技术大会(DTCC 2025)在北京成功举办,Databend作为新一代云原生数据仓库的代表,全方位展示了其在AI时代湖仓一体化建设方面的创新实践与技术突破。

2025-08-27 18:05:49 761

原创 SeaTunnel Databend Sink Connector CDC 功能实现详解

通过引入 Stream 和 MERGE INTO 机制,SeaTunnel 的 Databend sink connector 成功实现了高性能的 CDC 支持。这一创新方案不仅大幅提升了数据同步性能,还保证了数据一致性和可靠性。对于需要实时数据同步的 OLAP 场景,这一功能提供了强大的技术支撑。

2025-08-22 17:51:10 1008

原创 Databend 向量索引:加速 AI 应用的数据引擎

由于计算机只能理解数字,而人类交流主要依赖于文本、图像、音频等丰富的信息,这些数据存在大量歧义和复杂的上下文。如果没有合适的向量类型,计算机很难理解和处理这些非结构化数据。向量数据正好充当了桥梁,把人类复杂的信息转化为计算机能够处理的数字空间,从而让机器能够“理解”人类的信息。第一,向量能够对语义进行压缩。例如,文本信息经过向量化后可以转换为固定长度的向量。以图中示例为例,像 cat、kitty、dog、house 这些词汇都可以通过向量处理变成七维向量,去除原始数据中的冗余信息,仅保留关键特征。

2025-08-14 17:44:40 848

原创 迈向 AI 驱动的数据平台新时代 | Databend Meetup·北京站活动回顾

今年的 AI 热潮给数据基础设施带来了巨大变革。大模型及生成式 AI 的落地,让金融、零售、制造、医疗等行业都在加速推进数据平台的智能化升级。与之对应,数据体量和复杂性不断提升,企业对数据库系统的性能、扩展性、多模融合与 AI 支持能力提出了更高要求。

2025-08-11 17:35:03 825

原创 Databend 产品月报(2025年7月)

亲爱的 Databend 用户朋友们,大家好!🚀。最令人兴奋的是,我们对 Virtual Columns 功能进行了全面升级,效果显著——,同时!

2025-08-05 17:27:42 654

原创 使用 Databend Cloud 归档 OceanBase 数据数据库

完全利用云上基础设施可以实现按需付费。存储的按需储费, 计算 Databend Cloud 按需付费。基于无运维操作,算力可以根据需求秒级伸缩合理的调整数据摄入接点休眠时间,来节省费用。

2025-07-29 18:15:45 854

原创 揭秘 Databend 向量索引,加速 AI 应⽤的数据引擎

由于计算机只能理解数字,而人类交流主要依赖于文本、图像、音频等丰富的信息,这些数据存在大量歧义和复杂的上下文。如果没有合适的向量类型,计算机很难理解和处理这些非结构化数据。向量数据正好充当了桥梁,把人类复杂的信息转化为计算机能够处理的数字空间,从而让机器能够“理解”人类的信息。第一,向量能够对语义进行压缩。例如,文本信息经过向量化后可以转换为固定长度的向量。以图中示例为例,像 cat、kitty、dog、house 这些词汇都可以通过向量处理变成七维向量,去除原始数据中的冗余信息,仅保留关键特征。

2025-07-25 17:20:09 1006

原创 使用 SeaTunnel 建立从 MySQL 到 Databend 的数据同步管道

是一个非常易用、超高性能的分布式数据集成平台,支持实时海量数据同步。每天可稳定高效地同步数百亿数据,已被近百家企业应用于生产,在国内较为普及。是一款开源、弹性、低成本,基于对象存储也可以做实时分析的云原生湖仓。

2025-07-16 17:52:39 1009

原创 Databend 产品月报(2025年6月)

亲爱的 Databend 用户朋友们,大家好!👋这个六月,我们的研发团队可谓是火力全开,为大家带来了一系列重磅更新!最值得关注的就是全新推出的,相信这个功能会让企业的数据安全团队眼前一亮~

2025-07-08 17:44:12 821

原创 利用 Graviton 和 Spot 实例打造 Databend 高性能数据平台

Databend Cloud 上 External Table+Attach Table 可以帮助用户构建一个内部数据集市,帮助用户节省 30-40万数据的同步任务:一份数据,不需要数据同步,不需要数据校验,借助 Amazon 上提供云原生基础,实现一个简单易用,可量化的数据平台。比如,将处理后的数据投递到 MySQL 或 Redis 中,再比如在游戏场景下,玩家每打完一局游戏,所有相关数据会立即被动态计算,玩家可以立刻看到本局的数据统计,了解队友表现是否存在问题,是否有人作弊等。二是私有化部署企业版。

2025-06-23 17:32:30 908

原创 超 10 倍查询加速,N-Gram Index 设计与优化全解析 | Data Infra NO.26 回顾(含资料发布)

N-Gram Index 是一种基于字符串切分的倒排索引结构,主要用于模糊匹配、全文检索以及自动补全等场景。这项技术常应用于类似 Elasticsearch 这样的文本搜索引擎,或 AI 数据检索场景中。其基本原理是将字符串按照长度为 n 的滑动窗口进行切分,得到多个子串,其中 n 被称为 gram。举个例子,比如对字符串 “hello” 进行切分(假设 n=2),则会得到 “he”、“el”、“ll” 和 “lo” 这几个子串。N-Gram 的基本使用流程是:在插入数据时,将目标列按 n 进行切分;

2025-06-17 17:39:59 1053

原创 玩转 Databend UDF

Lambda UDF 是 Databend 中最简单的 UDF 形式,完全通过 SQL 语句定义和执行表达式,适合简单的数据转换和计算。我们可以在 SQL 中定义一个闭包函数,然后进行调用。│ UInt8 ││ 6 ││ Int64 ││ 33 │纯 SQL 实现,无需外部语言支持无法支持递归调用执行性能受表达式定义影响Databend 的多形态 UDF 支持为数据处理提供了极大的灵活性。

2025-06-12 17:52:15 1031

原创 如何在 DataGrip 中 连接 Databend

通过以上步骤,我们成功在 DataGrip 中配置了 Databend 数据库连接。虽然 DataGrip 默认不支持 Databend,但通过创建自定义 Driver 和正确配置 JDBC 连接参数,我们可以充分利用 DataGrip 强大的数据库管理功能来操作 Databend。这种配置方式不仅适用于 Databend Cloud,同样适用于自部署的 Databend 实例。

2025-06-03 17:37:13 897

原创 湖仓一体,不只是技术升级,更是企业决策力再造

湖仓一体不仅仅是一种技术流行趋势--它改变了游戏规则,重新定义了行业领导者如何利用其最宝贵的资产:数据。你是否想知道这种方法能否成为你的竞争优势?湖仓一体架构将数据仓库和数据湖的精华结合到一个统一的高性能平台中,为当今复杂的数据挑战提供了前所未有的价值。要想真正了解未来的发展方向,我们需要先了解过去。在数据平台的发展过程中,各种技术层出不穷,但核心挑战始终不变:如何以最低的复杂度和成本从数据中挖掘最大的商业价值。这正是行业领导者迅速采用湖仓一体架构的原因。

2025-05-29 17:47:35 780

原创 Databend 产品月报(2025年5月)

五月份对 Databend 来说是个重要的里程碑。双重索引方案让查询性能有了质的飞跃,我们正在打造下一代云数据仓库的基础设施。社区的反馈超出了我们的预期 - 很多用户已经在生产环境中使用,给了我们很多宝贵的建议。想体验一下未来的数据仓库吗?🚀。

2025-05-28 17:45:30 923

原创 揭秘 Databend:引领云原生存算分离架构的创新实践

你了解存算分离吗?在 2025 年的今天,这已是技术圈的“常识”。存算分离,简单来说就是将计算资源与存储资源解耦,分别部署在不同的服务器或集群之上。计算层负责数据的处理与分析,存储层专注于数据的持久化和管理。每一层都可以独立扩容和收缩,实现灵活的资源调度和高可用架构。以上是存算分离的基础版本,它让企业可以按需扩展存储容量和计算能力,打破以往“一刀切”的资源瓶颈。很多主流数据平台都开始沿用这一范式,从云数据库到分布式数据仓库,存算分离早已成为行业的标配。但行业实践告诉我们,这只是存算分离的“初级形态”

2025-05-26 17:22:24 981

原创 AskTable 集成 Databend:结构化数据的 AI 查询新体验

AskTable 在单表结构化查询生成上的准确率非常高;AskTable 支持基于 RAG(Retrieval-Augmented Generation)方式的提示,在大模型功能强大的支撑下,能够实现较为完善的自助查询能力;在单表模式下,AskTable 对 github_events 每个字段的提示均准确,生成的 SQL 也较为精确,令人感叹大模型的强大。AskTable 的最佳使用方式是在平台内部嵌入会话窗口使用,让平台快速具备 AI 分析数据的能力。

2025-05-21 17:22:15 1010

原创 使用 Databend 全新体验!一文看懂 Databend 可视化管控平台 BendDeploy

Databend 提供了一套基于 Kubernetes 的标准化私有部署管控平台——BendDeploy,帮助用户快速、安全地实现 Databend 多集群、多租户的部署和管理。BendDeploy 提供了简单易用的可视化运维体验,极大地提升运维效率,减少错误和中断。通过 BendDeploy,用户可以实现多租户管理、集群部署、集群扩缩、集群升级、节点管理等操作。此外,BendDeploy 还提供了日志收集、查询和分析能力,将日志收拢到一个平台中,简化了操作。

2025-05-14 11:02:31 996

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除