- 博客(351)
- 收藏
- 关注
原创 DATA AI Databend Meetup 2025上海站邀您共话未来
数据洪流奔涌,AI 浪潮澎湃。当 Data 与 AI 深度交织,如何构建面向未来的技术栈?如何在这场变革中抢占先机?11月29日「DATA AI Databend Meetup」 应势而来!我们力邀多位来自明星开源项目与一线大厂的资深专家,为您全景解析数据平台架构、AI 创新实践与职业发展路径,开启一场思想与技术的碰撞。
2025-11-21 11:54:59
685
原创 Databend SQL 存储过程使用指南
存储过程(Stored Procedure)是一组预编译的 SQL 语句集合,它们被保存在数据库中,可以像函数一样被重复调用。想象一下,如果你经常需要执行一系列复杂的数据处理操作,与其每次都手动输入这些 SQL 语句,不如将它们封装成一个存储过程,需要时直接调用即可。
2025-11-14 17:39:29
787
原创 Databend SQL nom Parser 性能优化
nom 是 Rust 生态中非常受欢迎的解析框架:性能优秀、组合灵活,并且能很好地利用 Rust 的类型系统。Databend 在 SQL 表达式和语句解析上大量使用 nom,开发体验不错,可读性也高。不过,组合式 parser 容易在不经意间埋下性能隐患——尤其是当多个分支结构相似、再加上递归嵌套时,回溯成本会指数级膨胀。/// 一个简单的 parser:匹配 "foo" 或 "bar"alt(())(input)合并结构相似的 parser,避免深度优先 + 回溯导致的指数级爆炸。
2025-11-14 11:45:45
967
原创 Databend 十月月报:存储过程正式可用,数据流程全面自动化
存储过程的正式可用标志着 Databend 迈入新的阶段:从查询引擎进化为完整的数据平台。用户可以在统一的 Rust 引擎上,用 Snowflake 兼容的 SQL 语法,处理结构化分析、半结构化搜索、向量检索、地理空间分析和数据自动化——所有功能开箱即用,完全开源。我们即将推出功能,让数据表像代码一样支持分支、测试和合并,敬请期待!
2025-11-07 17:23:13
916
原创 BendSQL v0.30.3 Web UI 功能介绍
查看或创建配置文件[server]bind_address = "0.0.0.0" # 允许外部访问bind_port = 8999 # 固定端口BendSQL v0.30.3 的 Web UI 功能极大地提升了用户体验,使得 SQL 查询和性能分析变得更加直观和高效。无论是日常的数据查询还是复杂的性能调优,这个现代化的界面都能提供出色的支持。
2025-11-05 11:37:52
932
原创 Databend 九月月报:自增列 AUTOINCREMENT 与行级安全
Hi,Databend 的朋友们!🚀九月我们把重点放在了上。这个月上线了行级访问控制、Check 约束、AUTOINCREMENT 自增列、基于事务的表名交换(SWAP),还有智能的 SQL 错误提示。这些都是企业用户一直在等的功能。
2025-10-11 17:42:12
635
原创 Raft 中的 IO 执行顺序:内存状态与持久化状态的陷阱
在 Raft 实现中,处理 appendEntries 请求时需要持久化两类数据:term 和 log entries。Raft 论文要求"在响应 RPC 之前必须更新持久化状态",但并未明确说明这两类数据的持久化顺序。这个看似无关紧要的细节,却可能导致已提交数据的丢失。问题的根源在于:Raft 论文描述的是一个简单的抽象模型(只有磁盘状态),而实际实现为了性能会分离内存状态和持久化状态。这种状态分离引入了论文中未定义的行为,当 IO 操作允许重排序时,就可能破坏 Raft 的安全性保证。
2025-10-11 14:02:23
541
原创 MySQL 数据归档的技术困境与 Databend 解决之道
在企业数字化转型的浪潮中,MySQL 作为最受欢迎的开源数据库,承载着越来越多的业务数据。从最初的几百 GB,到现在动辄几个 TB 甚至数十 TB 的数据规模,MySQL 数据库的体量增长速度常常超出企业的预期。然而,一个不容忽视的现实是:这些庞大数据库中真正的热点数据往往只占 20-30%,剩下的大部分都是历史数据、日志记录和归档信息。这种现象在各个行业都很普遍。电商平台需要保留多年的订单记录用于用户查询和监管合规;金融机构必须长期存储交易流水以满足审计要求;政务系统要保存大量的办事记录和操作日志;
2025-09-19 17:33:52
729
原创 Databend 亮相 RustChinaConf 2025,分享基于 Rust 构建商业化数仓平台的探索
十年前,当 Graydon Hoare 在 Mozilla 的支持下发布 Rust 1.0 时,很少有人能预见到这门语言会在今天成为系统编程的新标杆。十年后的今天,当我们站在 2025 年的节点回望,Rust 不仅兑现了当初"安全、并发、实用"的承诺,更在商业化道路上走出了一条独特的轨迹。在刚刚结束的 RustChinaConf 2025 杭州大会上,Databend 技术 VP 陈小玉的主题演讲《基于 Rust 构建商业化数仓平台的探索》引起了与会者广泛关注。
2025-09-18 14:32:29
745
原创 基于 Databend 的实时数据汇聚平台建设
Databend 是一个类似于 Snowflake 架构的存算分离的云原生数据平台,在国内落地中帮着用户节省大量的数据基础架构投入,大大简化了。目前在国内已经替换过 CDP, Greenplum, 多种大数据平台。
2025-09-12 16:38:12
992
原创 Databend 八月月报:向量检索重磅上线,性能飞跃几十倍
Hi,Databend 的朋友们!🚀。通过 HNSW 索引算法实现了,AI 应用终于可以在对象存储上高效运行了。结合我们已有的结构化数据和 JSON 处理能力,。
2025-09-11 17:39:28
622
原创 CRC32 自包含退化现象分析
传输数字 1234 时,如何检测错误?1234 ÷ 97 = 12 余 70余数70就是1234的指纹。校验原理数据=1234, 校验=70接收:重新计算 received % 97 的余数余数不是 70 → 检测到错误判断收到的消息正确性的方式是接收到:数据=1234, 校验=701. 计算 1234 % 97 = 702. 比较:计算余数(70) == 收到的校验码(70)?3. 相等 → 数据很可能正确4. 不等 → 数据肯定有错误。
2025-09-09 10:38:07
1072
原创 传统大数据 Hadoop 和 云原生湖仓 Databend 对比
随着数据需求的不断增加,大数据架构的演变成为了现代数据工程师的重要课题。本文将对比传统大数据架构与新一代云原生湖仓 Databend,通过对比它们在实时与离线架构中的区别,感受 Databend 的优势。
2025-09-02 18:12:38
1534
2
原创 存算分离架构重塑政务数据治理:福建大数据基于 Databend 构建一体化公共数据平台的实践探索
在数字政府建设的浪潮中,政务大数据平台正面临着前所未有的挑战与机遇。作为承载着全省 2000 多亿条公共数据资源的福建大数据一体化公共数据平台,其技术架构的每一次演进都牵动着整个数字福建建设的神经。福建大数据一级开发有限公司作为省级公共数据资源一体开发主体,在多年的实践中深刻体会到传统湖仓分离架构在政务场景下的局限性,最终通过引入 Databend 存算分离计算引擎,成功构建了真正意义上的湖仓一体化平台。
2025-09-02 09:47:17
1163
原创 吴炳锡:AI 时代下的湖仓一体化平台建设的思考
随着企业数字化转型的深入推进,实时数据仓库与湖仓一体化架构已成为现代数据平台建设的核心议题。在业务节奏日益加快的今天,企业不仅需要处理海量的历史数据,更需要实时洞察数据变化,快速响应市场需求。如何在保证数据一致性和可靠性的前提下,实现数据湖的灵活性与数据仓库的高性能完美融合,成为每一位数据架构师面临的重大挑战。在第 16 届中国数据库技术大会(DTCC2025)的「实时数仓与湖仓一体应用实践(上)」专场中,Databend 联合创始人吴炳锡带来了主题为《AI 时代下的湖仓一体化平台建设的思考》的深度分享。
2025-08-28 18:07:15
867
原创 Databend 亮相 DTCC 2025:存算分离架构引领湖仓一体化
在数字化转型加速推进的今天,实时数据仓库与湖仓一体化架构已成为企业数据平台建设的核心议题。面对海量数据的爆发式增长和日益复杂的业务需求,如何构建既能满足实时性要求,又能兼顾成本效益的现代化数据平台,成为每一位数据架构师面临的重大挑战。8月21-23日,以"智能创新 数赢未来"为主题的第十六届中国数据库技术大会(DTCC 2025)在北京成功举办,Databend作为新一代云原生数据仓库的代表,全方位展示了其在AI时代湖仓一体化建设方面的创新实践与技术突破。
2025-08-27 18:05:49
720
原创 SeaTunnel Databend Sink Connector CDC 功能实现详解
通过引入 Stream 和 MERGE INTO 机制,SeaTunnel 的 Databend sink connector 成功实现了高性能的 CDC 支持。这一创新方案不仅大幅提升了数据同步性能,还保证了数据一致性和可靠性。对于需要实时数据同步的 OLAP 场景,这一功能提供了强大的技术支撑。
2025-08-22 17:51:10
966
原创 Databend 向量索引:加速 AI 应用的数据引擎
由于计算机只能理解数字,而人类交流主要依赖于文本、图像、音频等丰富的信息,这些数据存在大量歧义和复杂的上下文。如果没有合适的向量类型,计算机很难理解和处理这些非结构化数据。向量数据正好充当了桥梁,把人类复杂的信息转化为计算机能够处理的数字空间,从而让机器能够“理解”人类的信息。第一,向量能够对语义进行压缩。例如,文本信息经过向量化后可以转换为固定长度的向量。以图中示例为例,像 cat、kitty、dog、house 这些词汇都可以通过向量处理变成七维向量,去除原始数据中的冗余信息,仅保留关键特征。
2025-08-14 17:44:40
836
原创 迈向 AI 驱动的数据平台新时代 | Databend Meetup·北京站活动回顾
今年的 AI 热潮给数据基础设施带来了巨大变革。大模型及生成式 AI 的落地,让金融、零售、制造、医疗等行业都在加速推进数据平台的智能化升级。与之对应,数据体量和复杂性不断提升,企业对数据库系统的性能、扩展性、多模融合与 AI 支持能力提出了更高要求。
2025-08-11 17:35:03
805
原创 Databend 产品月报(2025年7月)
亲爱的 Databend 用户朋友们,大家好!🚀。最令人兴奋的是,我们对 Virtual Columns 功能进行了全面升级,效果显著——,同时!
2025-08-05 17:27:42
638
原创 使用 Databend Cloud 归档 OceanBase 数据数据库
完全利用云上基础设施可以实现按需付费。存储的按需储费, 计算 Databend Cloud 按需付费。基于无运维操作,算力可以根据需求秒级伸缩合理的调整数据摄入接点休眠时间,来节省费用。
2025-07-29 18:15:45
829
原创 揭秘 Databend 向量索引,加速 AI 应⽤的数据引擎
由于计算机只能理解数字,而人类交流主要依赖于文本、图像、音频等丰富的信息,这些数据存在大量歧义和复杂的上下文。如果没有合适的向量类型,计算机很难理解和处理这些非结构化数据。向量数据正好充当了桥梁,把人类复杂的信息转化为计算机能够处理的数字空间,从而让机器能够“理解”人类的信息。第一,向量能够对语义进行压缩。例如,文本信息经过向量化后可以转换为固定长度的向量。以图中示例为例,像 cat、kitty、dog、house 这些词汇都可以通过向量处理变成七维向量,去除原始数据中的冗余信息,仅保留关键特征。
2025-07-25 17:20:09
997
原创 使用 SeaTunnel 建立从 MySQL 到 Databend 的数据同步管道
是一个非常易用、超高性能的分布式数据集成平台,支持实时海量数据同步。每天可稳定高效地同步数百亿数据,已被近百家企业应用于生产,在国内较为普及。是一款开源、弹性、低成本,基于对象存储也可以做实时分析的云原生湖仓。
2025-07-16 17:52:39
969
原创 Databend 产品月报(2025年6月)
亲爱的 Databend 用户朋友们,大家好!👋这个六月,我们的研发团队可谓是火力全开,为大家带来了一系列重磅更新!最值得关注的就是全新推出的,相信这个功能会让企业的数据安全团队眼前一亮~
2025-07-08 17:44:12
809
原创 利用 Graviton 和 Spot 实例打造 Databend 高性能数据平台
Databend Cloud 上 External Table+Attach Table 可以帮助用户构建一个内部数据集市,帮助用户节省 30-40万数据的同步任务:一份数据,不需要数据同步,不需要数据校验,借助 Amazon 上提供云原生基础,实现一个简单易用,可量化的数据平台。比如,将处理后的数据投递到 MySQL 或 Redis 中,再比如在游戏场景下,玩家每打完一局游戏,所有相关数据会立即被动态计算,玩家可以立刻看到本局的数据统计,了解队友表现是否存在问题,是否有人作弊等。二是私有化部署企业版。
2025-06-23 17:32:30
893
原创 超 10 倍查询加速,N-Gram Index 设计与优化全解析 | Data Infra NO.26 回顾(含资料发布)
N-Gram Index 是一种基于字符串切分的倒排索引结构,主要用于模糊匹配、全文检索以及自动补全等场景。这项技术常应用于类似 Elasticsearch 这样的文本搜索引擎,或 AI 数据检索场景中。其基本原理是将字符串按照长度为 n 的滑动窗口进行切分,得到多个子串,其中 n 被称为 gram。举个例子,比如对字符串 “hello” 进行切分(假设 n=2),则会得到 “he”、“el”、“ll” 和 “lo” 这几个子串。N-Gram 的基本使用流程是:在插入数据时,将目标列按 n 进行切分;
2025-06-17 17:39:59
1030
原创 玩转 Databend UDF
Lambda UDF 是 Databend 中最简单的 UDF 形式,完全通过 SQL 语句定义和执行表达式,适合简单的数据转换和计算。我们可以在 SQL 中定义一个闭包函数,然后进行调用。│ UInt8 ││ 6 ││ Int64 ││ 33 │纯 SQL 实现,无需外部语言支持无法支持递归调用执行性能受表达式定义影响Databend 的多形态 UDF 支持为数据处理提供了极大的灵活性。
2025-06-12 17:52:15
1021
原创 如何在 DataGrip 中 连接 Databend
通过以上步骤,我们成功在 DataGrip 中配置了 Databend 数据库连接。虽然 DataGrip 默认不支持 Databend,但通过创建自定义 Driver 和正确配置 JDBC 连接参数,我们可以充分利用 DataGrip 强大的数据库管理功能来操作 Databend。这种配置方式不仅适用于 Databend Cloud,同样适用于自部署的 Databend 实例。
2025-06-03 17:37:13
881
原创 湖仓一体,不只是技术升级,更是企业决策力再造
湖仓一体不仅仅是一种技术流行趋势--它改变了游戏规则,重新定义了行业领导者如何利用其最宝贵的资产:数据。你是否想知道这种方法能否成为你的竞争优势?湖仓一体架构将数据仓库和数据湖的精华结合到一个统一的高性能平台中,为当今复杂的数据挑战提供了前所未有的价值。要想真正了解未来的发展方向,我们需要先了解过去。在数据平台的发展过程中,各种技术层出不穷,但核心挑战始终不变:如何以最低的复杂度和成本从数据中挖掘最大的商业价值。这正是行业领导者迅速采用湖仓一体架构的原因。
2025-05-29 17:47:35
770
原创 Databend 产品月报(2025年5月)
五月份对 Databend 来说是个重要的里程碑。双重索引方案让查询性能有了质的飞跃,我们正在打造下一代云数据仓库的基础设施。社区的反馈超出了我们的预期 - 很多用户已经在生产环境中使用,给了我们很多宝贵的建议。想体验一下未来的数据仓库吗?🚀。
2025-05-28 17:45:30
907
原创 揭秘 Databend:引领云原生存算分离架构的创新实践
你了解存算分离吗?在 2025 年的今天,这已是技术圈的“常识”。存算分离,简单来说就是将计算资源与存储资源解耦,分别部署在不同的服务器或集群之上。计算层负责数据的处理与分析,存储层专注于数据的持久化和管理。每一层都可以独立扩容和收缩,实现灵活的资源调度和高可用架构。以上是存算分离的基础版本,它让企业可以按需扩展存储容量和计算能力,打破以往“一刀切”的资源瓶颈。很多主流数据平台都开始沿用这一范式,从云数据库到分布式数据仓库,存算分离早已成为行业的标配。但行业实践告诉我们,这只是存算分离的“初级形态”
2025-05-26 17:22:24
936
原创 AskTable 集成 Databend:结构化数据的 AI 查询新体验
AskTable 在单表结构化查询生成上的准确率非常高;AskTable 支持基于 RAG(Retrieval-Augmented Generation)方式的提示,在大模型功能强大的支撑下,能够实现较为完善的自助查询能力;在单表模式下,AskTable 对 github_events 每个字段的提示均准确,生成的 SQL 也较为精确,令人感叹大模型的强大。AskTable 的最佳使用方式是在平台内部嵌入会话窗口使用,让平台快速具备 AI 分析数据的能力。
2025-05-21 17:22:15
978
原创 使用 Databend 全新体验!一文看懂 Databend 可视化管控平台 BendDeploy
Databend 提供了一套基于 Kubernetes 的标准化私有部署管控平台——BendDeploy,帮助用户快速、安全地实现 Databend 多集群、多租户的部署和管理。BendDeploy 提供了简单易用的可视化运维体验,极大地提升运维效率,减少错误和中断。通过 BendDeploy,用户可以实现多租户管理、集群部署、集群扩缩、集群升级、节点管理等操作。此外,BendDeploy 还提供了日志收集、查询和分析能力,将日志收拢到一个平台中,简化了操作。
2025-05-14 11:02:31
976
原创 Databend 产品月报(2025年4月)
很高兴为您带来 Databend 2025 年 4 月的最新更新、新功能和改进!我们希望这些增强功能对您有所帮助,并期待您的反馈。
2025-04-30 17:00:02
772
原创 大数据是不是凉了?
大数据数据准备工程师 ( 曾经说的数据搬运工)( 平台化 & SaaS );ETL工程师;BI 及 分析人员( 可能每天用 Excel 记录任务, 也会使用 Text2SQL 辅助 );数据质量管理 & 血源治理工程师 ( 平台化 & SaaS );算法 & 机器学习工程师;调度平台研发 ( SaaS );数据同步工具开发 ( SaaS, 变身称谓:Data pipeline );可视化相关的工作 ( 平台化 & SaaS );
2025-04-28 15:52:23
907
原创 Databend Operator: 打造开源的数据仓库部署利器
Databend Operator 是我们最新在 Github 上开源的项目,旨在通过 Kubernetes 原生方式管理 Databend 的核心组件,尤其是面向私有化和混合云部署场景。Tenant和Warehouse。Tenant 定义对象存储端点、Meta 信息和用户配置;Warehouse 通过 tenantRef 引用 Tenant,并声明计算镜像、实例数、Disk Cache 配置与日志策略。
2025-04-22 17:22:57
640
原创 如何使用 Databend Cloud 化简大数据架构?| Data Infra NO.24 回顾
随着数据量的爆炸式增长和业务需求的多样化,许多企业的大数据平台在多年的演进中堆积了 Hadoop、Hive、Spark、Flink、Kafka 等数十种组件,复杂度的累积使架构演变为”难以维护的黑盒",企业用户不得不承受着传统数据架构的慢性疼痛。亚舟将在本次分享中,以用户行为分析场景为例,介绍 Databend Cloud 如何化繁为简,帮助企业摆脱复杂技术栈的束缚,快速构建端到端的数据管道,从而实现一套可扩展、灵活、低成本的用户行为数据分析架构。在 Data Infra 第 24 期活动中,我们邀请到。
2025-04-15 14:39:35
966
原创 下一代数据架构全景:云原生实践、行业解法与 AI 底座 | Databend Meetup 成都站回顾
一个通用的判别是,热数据是高频访问、时效性强、性能要求高的数据;冷数据是低频访问、长期存储、对性能要求低的数据。但各个企业、各个场景、各个行业,其实对冷热数据也有着自己的一些标签,因此不能概括来说。
2025-04-11 16:26:51
1305
原创 Databend Cloud 如何给游戏行业数据分析带来 10 倍收益提升?
游戏业务需求非常多,如运营层、玩法层、经济层等。比如四五个人组成的一个流量小组,要投放 100 万流量,这个时间段内能否赚回这 100 万?这几天如何分析数据?对于这样的数据分析需求,如果还用传统的方法做成看板展示,基本上不太现实。这种时候,团队通常会直接使用 SQL 查询,再把数据导出到 Excel 表里。一个个灵活的需求都是这样去实现分析的,需求量极大。此外,游戏行业的数据工程师经常会面对堆积如山的需求量。很多在海外工作的朋友头衔叫"Data Engineer"(数据工程师)。
2025-04-11 11:22:13
703
原创 理解 Calvin 的架构设计与工作原理
Calvin 是一个针对分区式数据库系统设计的分布式 transaction 调度与复制层,其目标是在保证线性可扩展性和高可用性的同时提供完整的 ACID transaction。为了解决传统分布式 transaction 高开销、低性能的问题,Calvin 引入了确定性 transaction 调度的理念:在 transaction 执行前,先确定并记录 transaction 的全局顺序,这样各节点就可以按统一顺序执行 transaction ,从而避免了在执行过程中再进行跨节点协调。
2025-04-09 09:52:23
787
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅