- 博客(295)
- 收藏
- 关注
原创 5 倍性能提升,Apache Doris TopN 全局优化详解|Deep Dive
为了帮助用户快速获取目标数据,Apache Doris 针对 TopN 类型查询进行了全局优化,可将此类查询的性能提升约 5 倍;同时,优化范围也从单表进一步拓展至数据湖场景与多表关联查询,显著扩大了适用范围。
2025-12-30 22:01:03
903
原创 Doris Catalog 已上线!性能提升 200x,全面优于 JDBC Catalog,跨集群查询迈入高性能分析时代
Apache Doris 4.0.2 版本推出重磅特性:Doris Catalog。该功能专为跨 Doris 集群联邦分析设计,支持通过 Arrow Flight 和虚拟集群两种模式,进行更高效、更贴合原生优化的跨集群查询。
2025-12-26 21:39:29
579
原创 慢 SQL 诊断准确率 99.99%,天翼云基于 Apache Doris MCP 的 AI 智能运维实践
Apache Doris 上的应用规模庞大,已在生产环境中落地超 30 个项目,覆盖广泛的业务场景,展现出大规模、多类型场景并行运行的特征。
2025-12-24 12:01:57
732
原创 Apache Doris 4.0.2 版本正式发布
亲爱的社区小伙伴们,**Apache Doris 4.0.2 版本已正式发布。**此版本新增了在 AI & Search、函数、物化视图、Lakehouse 等方面的功能,并同步进行了多项优化改进及问题修复,欢迎下载体验!
2025-12-22 16:22:09
976
原创 Apache Doris AI 能力揭秘(四):HSAP 一体化混合搜索与分析架构全解
AI 时代正在重塑数据库的角色。过去,数据库主要为人类分析者提供报表与查询能力;而现在,越来越多的查询来自智能代理(Agent),它们会自动检索知识、过滤数据、组合多种信号,并将数据库作为 “实时信息源” 支撑推理与决策。
2025-12-18 17:10:59
1048
原创 较 Trino 省 67% 成本,速度快 10 倍,中通快递基于 SelectDB 的湖仓分析架构
中通快递基于 SelectDB 构建了湖仓分析架构,补齐 OLAP 分析能力。在离线场景中,实现 2000+ QPS 并发点查;在实时场景中,仅以 1/3 原集群机器数量覆盖所有业务,90% 分析任务从 10 分钟缩短至 1 分钟内,投入产出比大幅提升。
2025-12-17 09:33:57
920
原创 面向 Agent 的高并发分析:Doris vs. Snowflake vs. ClickHouse
摘要: AI时代对数据仓库提出更高要求,需支持高并发、低延迟查询以满足智能体分析需求。Apache Doris 4.0凭借多项优化技术(数据裁剪、Pipeline执行引擎、向量化处理)在SSB-FLAT、SSB和TPC-H基准测试中表现卓越,查询吞吐量(QPS)显著领先Snowflake和ClickHouse,最高达7.39倍。其能力源于高效的数据过滤、并行执行架构及SIMD加速,成为AI时代理想的实时分析中枢,为智能决策提供稳定支撑。
2025-12-12 12:46:31
1053
原创 浙江头部城商行:每日 700 万查询、秒级响应,Apache Doris 查算分离架构破局资源冲突
在当前银行业务全面线上化、实时化的驱动下,浙江省头部城商行亟需构建一个能够同时承载海量数据加工与高并发实时查询的数据平台,以支撑精准营销、实时风控和智能决策等关键业务。
2025-12-11 19:37:48
770
原创 Apache Doris 实时更新全解:从设计原理到最佳实践|Deep Dive
本文档将作为一份官方指南,系统性地阐述 Apache Doris 的数据更新能力,内容涵盖其核心原理、多样的更新与删除方式、典型的应用场景,以及在不同部署模式下的性能最佳实践,旨在帮助您全面掌握并高效利用 Doris 的数据更新功能。
2025-12-04 16:36:38
1179
原创 云上数据安全新范式:Apache Doris IAM Assume Role 解锁无密钥访问 AWS S3 数据
1、Doris 通过将 FE、BE 进程所部署的 AWS EC2 Instances 绑定到 Source Account ,利用 AWS IAM 的 Assume Role 功能获取跨账户访问权限,从而安全地访问目标账户中的 AWS 资源。■ 目标角色使用临时凭证访问 AWS S3 前,目标账户的 IAM 策略引擎校验:该角色是否被授权执行请求的 S3 操作?■ 源用户发起 AssumeRole 请求时,源账户的 IAM 策略引擎首先验证:该用户是否被授权调用 sts:AssumeRole 操作?
2025-12-03 11:32:20
499
原创 Apache Doris 在小米统一 OLAP 和湖仓一体的实践
本文将详细介绍小米数据中台基于 Apache Doris 3.0 的查询链路优化、性能提升、资源管理、自动化运维、可观测等一系列应用实践。
2025-12-02 15:48:08
1099
原创 宇信科技基于 SelectDB & Apache Doris 构建实时智能的银行经营分析平台
深耕银行 IT 建设领域 26 的年, 宇信科技服务超数百家金融机构,覆盖核心系统、渠道平台、风控中台等关键业务场景。其数据条线团队专注经营分析场景 20 余年,为城商行、农商行提供从报表系统到智能决策的全栈解决方案。随着银行业数字化进程步入深水区,宇信科技面临双重挑战:一方面,市场节奏的加快,让客户对“分钟级数据响应”需求迫切,传统数据平台的处理效率与扩展能力已显滞后;另一方面,决策者不再满足于“工具即报表”现状,需要一种能够实现 “智能归因-闭环决策” 的深度分析能力,以应对复杂多变的市场环境。
2025-11-28 12:14:19
353
原创 上海证券 SelectDB 升级实践:湖仓流批一体落地与 Elasticsearch 全面替换
上海证券引入 SelectDB 作为核心实时分析引擎,有效弥补了实时数据处理与分析的能力短板,实现湖仓一体与流批一体,同时替换了原架构中的 Elasticsearch 组件。达成了写入性能提升 4 倍,支撑 1000+ QPS 高并发访问,关键决策响应速度 200 ms,开发效率提升 50%,运维成本大幅降低的关键收益。
2025-11-28 11:38:01
296
原创 字节跳动:Apache Doris + AI 一站式融合数据引擎的探索与实践
随着人工智能技术在业务中的渗透,我们逐渐意识到:AI 不仅是提升效率的工具,更是重构数据处理与消费方式的核心驱动力。在这一背景下,我们思考:能否构建一款「AI + Data」一站式融合的数据引擎? 它不仅能够统一处理文本、音视频等非结构化数据与传统结构化数据,还能为算法工程师提供流畅的数据开发体验,实现数据处理与 AI 模型无缝衔接,并能确保数据处理负载与在线服务负载完全隔离。这是 2024 年末启动 DataMind 项目的初衷。
2025-11-27 16:15:26
1048
原创 Apache Doris 中的 Data Trait:性能提速 2 倍的秘密武器
在数据库系统的核心层,查询优化器如同一位精明的策略家,不断分析数据特征并制定最优执行计划。Apache Doris 作为一款高性能的 MPP 分析型数据库,其优化器内置的 Data Trait 分析机制,通过挖掘数据内在的统计特征和语义约束,为查询优化提供了基础设施。让我们一起来探索这个强大的功能!
2025-11-27 11:07:53
603
原创 更高效的数据处理解决方案:基于 MinIO 部署 Apache Doris 存算分离版本实践
Apache Doris 作为一款具备高性能的实时分析数据库,拥有湖仓一体的能力。当它与 MinIO 这样高性能且 S3 兼容的对象存储系统相结合时,能够构建出一个高效且具备低成本特性的数据分析系统。本文将介绍基于 Apache Doris 和 MinIO 的存算分离部署教程与使用实践。
2025-11-27 09:06:37
908
原创 压缩率提升 48%,详解 Apache Doris 存储压缩优化之道|Deep Dive
在分析型数据库中,列式存储是压缩和查询性能的核心基础。它按列组织数据,同一列值类型一致且分布相似,为编码与压缩算法提供极高空间局部性和可预测性。当存储的值变化较小或重复频繁时,列式布局能够减少冗余存储,并提升向量化扫描的 CPU 效率。Apache Doris 作为一款典型的列式存储引擎,可独立存储每一列数据。导入时,每列数据写入近似固定大小的数据页,经过编码和压缩处理,以实现更紧凑的存储。在 Doris 中,数据的压缩和解压均以数据页为单位,压缩算法的上下文限制在单个数据页内。因此,在接下来的章节中,
2025-11-25 15:21:24
1031
原创 【深入理解 Doris Variant:如何让 JSON 查询性能追平列存,还能承载万列索引字段?|Deep Dive】
在如 Snowflake、ElasticSearch、ClickHouse.... 等传统系统中,对于 JSON 的处理往往面临灵活性及性能无法兼得的困境,而 Apache Doris 的 VARIANT 类型,通过动态子列、稀疏列存储、延迟物化和路径索引等能力,实现了灵活结构 + 列存性能的平衡。本文将对该能力的实现一一讲解,全面展示其优势。
2025-11-24 18:44:41
1052
原创 公开免费!Apache Doris & SelectDB 培训与认证课程正式上线
随着 Apache Doris 用户群体日益壮大,许多用户反馈在学习和掌握 Doris 的过程中缺乏系统性的指导。无论是初次接触 Doris 的新手,还是希望在特定场景下深度应用的用户,都渴望一套从 0 到 1、全面覆盖的学习路径。这套体系旨在为所有 Doris 用户提供完整的学习课程与实践路径,帮助用户从理论到实践,逐步成长为实时分析型数据库专家。掌握 Doris 的安装与部署,快速搭建你的第一个 Doris 环境。同时,我们也免费提供了与课程配套的认证考试 ——的初级课程与认证,所有课程将。
2025-11-19 20:24:00
285
原创 Doris MCP Server v0.6.0 正式发布
多租户 SaaS(customer_a_token → database_a 完全隔离)、高可用环境零停机配置更新、安全敏感组织的企业级权限管控。🚀 Doris MCP Server v0.6.0,开启企业级数据平台与认证管理新时代!本次升级完全向后兼容 v0.5.x,现有 API 和配置无需修改,可平滑升级。Doris MCP Server v0.6.0 正式发布!
2025-11-18 21:13:18
252
原创 Apache Doris 数据导入原理与性能优化 | Deep Dive
对于 Apache Doris 这样的高性能分析型数据库而言,高效、稳定的数据导入是保障实时分析能力的生命线。然而,在海量数据持续写入的场景下,如何平衡导入延迟与吞吐、如何避免性能瓶颈,是开发者面临的核心挑战。Apache Doris 本文将深入剖析 Doris 数据导入的核心原理,涵盖关键流程、组件、事务管理等,探讨影响导入性能的因素,并提供实用的优化方法和最佳实践,有助于用户选择合适的导入策略,优化导入性能。
2025-11-18 20:55:25
688
原创 Apache Doris AI 能力揭秘(三):AI_AGG 与 EMBED 函数深度解析
借助AI_AGG与EMBED函数,Apache Doris 拥有了了强大的智能分析能力,极大地拓展了数据分析与智能应用的边界。AI_AGG通过其动态预聚合机制,将非结构化文本的智能聚合分析带入数据库,轻松应对海量用户评论、日志分析等场景。而EMBED函数则与 Doris 的向量函数无缝集成,提供从文本到语义向量、再到相似度检索的一站式解决方案,极大简化了问答系统、内容推荐等应用的开发。
2025-11-18 18:58:44
970
原创 Apache Doris 自动分区:如何应对分布式环境下的复杂并发挑战|Deep Dive
在解决了自动分区各个维度的并发挑战后,我们有必要跳出具体实现,审视其中蕴含的更具普适性的设计哲学与并发范式。这些范式不仅适用于 Doris,也对其他分布式系统的并发设计具有参考价值。
2025-11-16 14:04:17
984
原创 替换 ClickHouse,查询并发提升 7 倍,高途教育基于阿里云 SelectDB 构建秒级实时报表
在续班场景,高途教育通过续班大屏实时整合全国区域及课程品类的续班数据,为管理层与一线人员提供实时、动态的续班数据洞察,以驱动资源精准调配与潜力课程识别。在行课场景,高途教育需将数据分析大屏嵌入至教师、运营、管理者等多角色工作台,为每个角色实时提供高度定制化的行课数据视图,支撑教学质量和全流程优化。
2025-11-12 20:08:47
897
原创 Apache Doris Summit 2025 圆满收官,一文速览峰会高光时刻!
2025 年 11 月 5 日至 6 日,由飞轮科技主办的 Apache Doris Summit 2025 技术峰会圆满落下帷幕。** 本次峰会以 “Powering Real-Time Analytics & Search in the AI Era” 为主题,通过线上直播的形式,成功吸引了全球的 10 万 + 开发者、架构师和数据技术专家的参与。** 大家齐聚云端,共探 AI 时代背景下,数据价值释放的全新路径与技术突破。
2025-11-11 12:06:48
773
原创 冷查第一,再登榜首!Apache Doris 3.1 全面刷新 JSONBench 性能纪录
JSONBench 是最具代表性的 JSON 数据分析性能基准,由 ClickHouse 社区发起。该基准测试采用真实场景 Bluesky 数据集( 10 亿级 JSON 数据),包含多层嵌套、键值不固定的 JSON 结构,对数据库的查询优化、列存设计、解析引擎都是严苛考验,是业内公认的半结构化性能试金石。
2025-11-03 19:21:25
914
原创 从 OpenSearch 到 Apache Doris:领创集团日志系统升级实践,降本 45%
本次日志系统迁移从 OpenSearch 到 Apache Doris,不仅达成了显著的成本节省目标,更为未来系统扩展、查询效率、可运维性打下了坚实基础。大幅减少服务器和对象存储支出,综合成本下降超 45%;查询响应时间缩短至原系统的 1/5 以下;日志写入几乎实时,支持更及时的业务反馈;系统架构更简单、可维护性更强,支持更灵活的运维策略。通过这次实践,我们验证了在日志系统中 "结构化 + 列式存储 + MPP 查询" 模式的巨大潜力。
2025-11-03 17:46:33
807
原创 货拉拉用户画像基于 Apache Doris 的数据模型设计与实践
业务查询效率提升近 30 倍,数据导入速度是 Impala+KUDU 的 3 倍,内存开销降低 30%-50%,系统稳定性大幅提升,满足了画像场景数千个标签的精细化运营需求,同时通过可视化标签筛选,降低业务分析的操作门槛。接入画像实时业务:当前货拉拉画像服务的实时标签/人群点查主要使用 Hbase 和 Redis,基于稳定性和迁移升级成本的考虑,Doris 主要承担人群圈选、人群洞察、行为分析等作业。未来规划使用 Doris 高版本的架构,承担大部分高并发的实时点查流量,提升人货匹配效率和体验。
2025-10-31 18:01:48
585
原创 Apache Doris 4.0 版本正式发布:全面升级 AI 与搜索能力,强化离线计算
当前版本支持的语法功能:与括号分组多字段搜索:在一个search()中对多个字段做布尔组合后续版本会持续迭代以支持以下语法功能:短语前缀通配符正则范围列表管道化组合:通过 char filter、tokenizer 与多个 token filter 的链式配置,构建自定义文本处理流程。组件复用:常用的 tokenizer 和 filter 可在多个 analyzer 中共享,减少重复定义,降低维护成本。
2025-10-30 14:59:29
1047
原创 从 Snowflake 到 Apache Doris:Planet 实时分析成本直降 80%、查询加速 90 倍
标准 OLAP 查询:针对 2000 万行数据的过滤聚合(filter+agg)测试,Apache Doris 仅需0.9 秒完成响应,相较 Snowflake 的4.2 秒提升4.6 倍,充分验证其列式存储与向量化执行引擎的高效性。复杂多表 JOIN:在涉及多表关联的即席查询(2000 万行数据量)中,Apache Doris 以1.5 秒的平均耗时超越 Snowflake 的8 秒,性能提升达5.3 倍,凸显分布式计算架构对复杂查询的优化能力。超大规模数据处理。
2025-10-22 18:50:01
970
原创 Apache Doris 与 ClickHouse:运维与开源闭源对比
Doris 与 ClickHouse 各有优势,但在运维效率、集群自动化能力、故障恢复机制以及开源治理模型方面,Doris 展现出了更成熟、更开放、更面向云原生架构的产品能力。对于希望构建可控、弹性、高可用分析平台的团队而言,Doris 提供了一个更具确定性和长期价值的选择。而 ClickHouse 仍是极具性能优势的分析引擎,但其闭源方向的转变可能需要用户在技术与商业之间做出更谨慎的权衡。
2025-10-14 18:57:27
887
原创 Apache Doris 内部数据裁剪与过滤机制的实现原理 | Deep Dive
本文展示了 Apache Doris 中,谓词过滤、LIMIT 数据裁剪、TopK 数据裁剪、JOIN 数据裁剪四种数据裁剪方式的实现策略。目前,Apache Doris 通过这四类高效的数据裁剪策略极大提升了处理数据的效率。
2025-10-11 17:48:43
1178
原创 Apache Doris 4.0 AI 能力揭秘(二):为企业级应用而生的 AI 函数设计与实践
Apache Doris LLM Function 作为数据库技术与人工智能深度融合的创新实践,标志着数据分析领域向智能化方向演进的重要里程碑。通过将大语言模型能力原生集成到 SQL 执行引擎中,有效解决了传统数据分析架构中 AI 能力集成的技术挑战。从技术架构层面来看,LLM Function 采用资源池化管理和 SQL 原生集成的设计理念,实现了 AI 处理能力与数据查询的无缝融合。十大核心函数覆盖了文本分析、内容生成、数据处理等主要应用场景,为企业级智能化数据分析提供了完整的技术工具集。
2025-09-28 17:07:40
1228
原创 Apache Doris 3.1 正式发布:半结构化分析全面升级,湖仓一体能力再跃新高
推出自定义分词功能,方便用户根据自身分词需求,进行 DIY 组合,进一步提高文本检索召回率。自定义分词可以突破内置分词的局限,根据特定需求组合字符过滤器、分词器和词元过滤器,精细定义文本如何被切分成可搜索的词项,这直接决定了搜索结果的相关性与数据分析的准确性。使用场景举例问题使用默认 unicode 分词器时,电话号码 "13891972631" 被当作完整 token,无法支持前缀搜索如 "138"。
2025-09-24 18:38:23
1061
原创 为什么实时更新场景下 Doris 查询性能是 ClickHouse 的 34 倍
在当今数据驱动的商业环境中,企业越来越依赖数据分析来驱动决策。无论是用户行为分析、业务报表还是运营监控,企业都需要具备快速、高效的数据处理能力。企业在数据分析能力上的演进,往往始于 TP(事务处理)系统,随着业务发展不断探索 TP 系统的扩展方案,最终走向构建独立的 AP(分析处理)系统。在企业信息系统建设的早期,主要存储在 OLTP(在线事务处理)系统中,比如 PostgreSQL、MySQL、SQL Server 等。因为数据 "就在那儿",最自然的方式就是直接从 TP 系统中执行 SQL 查询来获取所
2025-09-19 16:30:48
1181
原创 爱玛集团:All In SelectDB 构建极速统一数据平台,领航 AI 数智化实践
爱玛集团 All In SelectDB 的数据平台统一架构与 AI 数智化转型实践,已然成为传统制造业转型智能企业的典型案例。从 Hadoop 多组件复杂架构到统一平台重构的演进,凸显了团队在技术选型与架构设计的深度思考,以及在 AI 技术融合上的前瞻布局 —— 通过深度合作参与开源项目,既助力自身升级,也推动行业智能化发展。从技术发展的角度来看,SelectDB 在这个案例中展现出的优秀性能和易用性,以及其在 AI 生态建设中的积极作用,为其他企业的技术选型提供了有力的参考。
2025-09-10 15:05:02
1175
原创 Apache Doris 登顶 RTABench —— 实时分析领域的性能王者
近日,实时分析领域知名 Benchmark —— RTABench(Real-Time Analytics Benchmark)最新榜单公布,Apache Doris 以绝对领先的成绩登顶,结果表明,Apache Doris 在实时分析场景下性能是 ClickHouse 的 6 倍,PostgresSQL 的 30 倍,MongoDB 的 100 倍。
2025-08-28 11:04:43
1191
原创 湖仓一体:小米集团基于 Apache Doris + Apache Paimon 实现 6 倍性能飞跃
小米在 Apache Doris 和 Paimon 上的深度融合实践,是典型的数据库与数据湖的互补增效的体现。查询平均延迟从 60 秒降至 10 秒,性能提升 6 倍;高并发场景下(5 并发提高至 80 并发),查询延迟降低 25% 到 300%;整体查询并发能力达到 Presto 的 5 倍,有效减少了计算资源。目前,这些能力已经全部回馈到了 Apache Doris 社区。使用 Doris 全流量替换 Presto 集群实现降本增效。
2025-08-26 18:11:49
703
原创 2-5 倍性能提升,30% 成本降低,阿里云 SelectDB 存算分离架构助力波司登集团实现降本增效
波司登集团作为全球领先的羽绒服公司,每年的销售旺季集中在四个月间,需高效把握业务机遇以实现高营收。为满足集团销售旺季的实时数据分析需求,同时降低淡季数据分析成本,波司登决定升级大数据架构,
2025-08-26 18:10:29
1158
原创 谁才是多快好省的数据分析选择:SelectDB vs. ClickHouse vs. Snowflake
Apache Doris在多项性能测试中展现出显著优势:在Coffeeshop Benchmark中,Doris比ClickHouse快3倍、比Snowflake快6倍;在TPC-H测试中,性能分别领先Snowflake 6倍和ClickHouse 14倍;TPC-DS测试显示Doris比Snowflake快30%且成本仅1/4。综合来看,Apache Doris在OLAP场景下具有5-10倍的性价比优势,重新定义了性能标准。
2025-08-22 18:19:44
1266
《SelectDB 新一代日志存储与分析解决方案白皮书》
2024-06-19
Apache Doris 用户案例集
2023-06-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅