• 博客(272)
  • 收藏
  • 关注

原创 Fresha 的实时分析进化:从 Postgres 和 Snowflake 走向 StarRocks

全球美业平台如何通过混合架构重构,实现高频运营分析与低运维成本

2025-12-19 15:59:42 1088

原创 从小文件困局到“花小钱办大事”:StarRocks 存算分离批量导入优化实践

在存算分离架构下,“一次性导入海量历史数据”正成为被放大的隐形风险。本文介绍 StarRocks 如何从写入源头重构大导入路径:通过“内存→本地磁盘 spill→集中 merge→对象存储”,减少远程写入和重复开销,降低 S3 写入次数并放大文件粒度,释放本地 I/O 能力,从源头缓解小文件问题,帮助用户以更低投入获得更高效、更稳定的使用体验。

2025-12-12 15:55:17 785

原创 从分钟到秒级,从 ClickHouse 到 StarRocks:哈啰的实时进化之路

性能提速 5 倍,成本下降 80%,统一湖仓架构全面落地。

2025-11-27 21:22:49 1000

原创 StarRocks 性能实测:在 Coffee-shop Benchmark 中快 10 倍!

在评估数据库性能时,如何同时衡量“算得快”和“算得省”一直是工程师关注的核心问题。

2025-11-20 23:47:14 702

原创 StarRocks 4.0:让 Apache Iceberg 数据真正 Query-Ready

写入即优化,查询更高效

2025-11-14 13:59:04 951

原创 StarRocks 4.0:FlatJSON,让 JSON 查询像列存一样高效

StarRocks 4.0推出FlatJSON技术,大幅提升JSON查询性能。通过列式存储优化,自动识别高频JSON字段并转换为列存格式,配合索引、字典编码等技术,使JSON查询速度接近原生列存。相比传统JSON处理方案,FlatJSON显著降低了I/O和CPU开销,无需ETL即可实现高性能分析,适用于日志、埋点等半结构化数据分析场景,在测试中性能提升达10倍以上。该技术实现了灵活数据结构与高效分析能力的兼得。

2025-11-07 23:53:06 977

原创 StarRocks 4.0:基于 Apache Iceberg 的 Catalog 中心化访问控制

StarRocks 4.0 已正式发布!这一版本带来了多项关键升级。接下来,我们将以每周一篇的节奏,逐一解析 4.0 的核心新特性。在多引擎协同访问同一数据湖的场景下,如何实现安全、统一且可审计的权限管理,是 Lakehouse 架构演进中的一项关键挑战。StarRocks 4.0 联合 Apache Iceberg,借助 REST Catalog 的统一治理能力与 JWT 身份认证、临时凭证机制(Vended Credential),为多引擎湖仓架构提供了一种全新的安全访问方式。

2025-11-02 21:37:47 968

原创 告别 Hadoop,拥抱 StarRocks!政采云数据平台升级之路

政采云平台作为政府采购数字化的创新典范,集监管、交易、服务于一体,经过近九年的发展,已成为行业内服务范围最广、用户数量最多、交易最活跃、监管产品最丰富的跨区域、跨层级、跨领域的一体化采购云服务平台,日均处理海量高并发数据。Hadoop 作为早期构建大规模数据平台的基石,为政采云平台打开了低成本处理海量非结构化、半结构化数据的可能。然而,伴随业务激增、复杂分析需求及严苛的时效要求,曾经 “功臣” 的局限性和沉重包袱日益凸显,逐渐成为数据价值释放的 “枷锁”。

2025-10-30 10:44:55 937

原创 StarRocks 在 Cisco Webex 的探索与实践

本文内容整理自 白旭 与 许鸿坤 两位嘉宾在 StarRocks Connect 2025 上的联合演讲。基于 Cisco Webex 的核心分析场景,分享了从 Pinot 技术栈迁移至 StarRocks 的完整实践路径——涵盖存算分离与存算一体架构的落地,以及多项性能与治理优化。迁移后,系统实现多项显著提升:- 查询性能提升超 50%,70% 的查询语句优于 Trino;- 物化视图让查询加速 10 倍以上;- Flat JSON 优化后磁盘占用降低 80%,查询时延减少 80%;

2025-10-29 15:38:43 1083

原创 StarRocks 4.0:Real-Time Intelligence on Lakehouse

全面解析 4.0 的核心特性,文末还有 1024 特别福利等你来领 🎁

2025-10-28 16:47:12 798

原创 StarRocks Community Monthly Newsletter (Sep)

StarRocks近期发布多个版本更新,涵盖功能增强与问题修复,包括v3.5.6优化Vacuum指标、v3.5.5新增日志信息、v3.4.8默认开启并行扫描等。社区动态方面,推出Java UDF文件自动检测工具,更新技术文档,并举办全球峰会StarRocks Summit 2025及中国区活动Connect 2025,分享行业实践案例。7-9月布道师精选文章评选出炉,多篇技术实战文章获奖,涵盖数据同步、性能优化等主题。积分兑换系统已升级,社区持续招募贡献者,推动数据分析技术发展。

2025-10-27 23:08:40 971

原创 Kubernetes 场景下的 StarRocks 灾备体系:Cluster Snapshot 实践解析

当系统发生故障、误操作或区域性宕机时,Snapshot 可在分钟级完成快速恢复,最大限度减少数据丢失与业务中断风险。通过将完整集群状态进行快照化并备份至对象存储,Snapshot 简化了传统灾备方案的复杂流程,使灾难恢复更加高效与便捷。这一机制尤其适用于 金融、零售、SaaS 等对系统稳定性要求极高的关键业务场景。

2025-10-23 08:48:23 890

原创 从 ClickHouse 到 StarRocks 存算分离: 携程 UBT 架构升级实践

查询性能实现从秒级到毫秒级的跨越式提升

2025-10-18 19:44:20 1237

原创 StarRocks:Connect Data Analytics with the World

本文基于镜舟科技 CTO、StarRocks TSC 成员张友东在 StarRocks Connect 2025 活动上的主题分享整理而成。围绕大会的核心主题——“数据与世界的连接”,本文将从三个维度进行阐述:过去:StarRocks 通过开源的力量,将全球的社区用户紧密联系在一起。现在:StarRocks 正在推动数据与现代化数据分析应用的融合。未来:StarRocks 将进一步探索数据分析与 AI Agent 的结合。

2025-09-27 22:54:10 915

原创 StarRocks 助力印度领先即时零售平台 Zepto 构建实时洞察能力

开源无国界,在本期 “StarRocks 全球用户精选案例” 中,我们走进印度即时零售品牌 Zepto。随着规模扩张,Zepto 借助 StarRocks 从 Postgres MVP 升级为生产级实时分析平台,单表每日导入 3000 万+ 行数据,在品牌看板上实现亚秒级查询,帮助品牌合作伙伴从“日报表”迈向 准实时洞察,快速响应市场、智慧决策。

2025-09-24 23:10:17 828

原创 StarRocks Connect 2025 圆满落幕:AI Native 时代,数据分析未来已来

StarRocks Connect 2025峰会聚焦数据分析与AI融合 9月13日,StarRocks Connect 2025线上线下同步举行,以“连接”为主题,汇聚全球数万名开发者与行业专家。镜舟科技CTO张友东分享了StarRocks的发展历程,从性能引擎到AIAgent辅助数据建模的演进,并宣布Multi-warehouse企业级能力开源。峰会还展示了Shopee、携程、Cisco等企业的落地实践,证明StarRocks在实时分析、成本优化等方面的卓越表现。

2025-09-22 13:42:45 930

原创 爱奇艺技术实践:基于 StarRocks 释放天玑买量数据价值

天玑买量平台服务于 UG 买量业务,由于业务特性,优化师需要丰富且准确的端内+端外数据来辅助投放决策。目前买量的数据有来自 UG 数仓的,有来自媒体 MAPI 拉取的,形式上有离线的,也有实时的。并且数据存储形式多样,业务数据主要使用 MySQL,离线数据基于数据湖写入 ClickHouse,实时数据基于 TiDB,在如此多异构数据的前提下,又有联合分析的场景,准确性和时效性都面临考验,因此我们决定基于 StarRocks 构建统一数仓,来消减异构数据带来的复杂性,同时支持业务对数据准确性和实时性的要求。

2025-09-22 13:37:15 1154

原创 淘宝闪购实时分析黑科技:StarRocks + Paimon撑起秋天第一波奶茶自由

当“秋天的第一杯奶茶”冲上热搜时,很多人看到的是用户的热情与订单的暴涨,而在背后,技术团队同样在全力以赴。自 4 月 30 日淘宝闪购上线以来,短短 100 天,业务团队创造了一个奇迹,技术团队则在高并发与海量数据的冲击下迎来前所未有的挑战。​闪购项目期间,亿级营销投入叠加多端流量,实时决策与调控对数据提出了分钟级的要求。为应对挑战,饿了么数据团队依托一年多的湖仓探索与沉淀,选择 StarRocks + Paimon 搭建实时湖仓架构,并通过物化视图优化、RoaringBitmap 去重和大查询治理

2025-09-04 02:37:55 1152

原创 欧洲数字化养殖平台 Herdwatch 借力 Iceberg + StarRocks 提升分析能力

本文将聚焦 Herdwatch 在构建现代化数据平台的探索历程,重点介绍其如何借助 Apache Iceberg 与 StarRocks,实现性能提升、成本优化与治理完善。

2025-08-27 23:35:01 1029

原创 欢乐互娱:StarRocks 助力游戏数据平台实现极速分析与高效运营

作者:康伟豪 欢乐互娱数据中台负责人欢乐互娱作为一家全球化的游戏研发与发行公司,业务涵盖 MMORPG 和 ACT 等多种品类,其产品在东南亚、日韩、美洲以及港澳台地区均有发行随着业务的不断扩展,欢乐互娱面临着日益增长的数据体量和复杂度挑战。公司的数据量从最初的每日百万级增长到每日百亿级,最高峰值甚至达到每日 150 亿条,这使得数据分析的需求和复杂度显著提升,对底层数据平台提出了更高的要求。

2025-08-25 05:02:22 1082

原创 告别 Count Distinct 慢查询:StarRocks 高效去重全攻略

摘要:本文针对大数据分析中高成本去重操作(CountDistinct)提出多维度优化方案。以SSB测试集的lineorder表为例,分析4类典型查询场景,提出函数替换、数据结构优化、类型转换和物化视图四类解决方案。其中重点阐述Bitmap精确去重、HLL近似去重等物化视图构建策略,对比了ArrayAgg、Bitmap_hash等技术路线在精度、性能和适用场景上的差异。通过合理选择优化方案,可在保证查询精度的前提下显著提升性能,如案例中通过bitmap_union(to_bitmap())实现精确去重加速,或

2025-08-18 01:46:27 1284

原创 从多引擎到统一平台:去哪儿网的 StarRocks 实践

去哪儿网数据平台通过引入StarRocks作为统一OLAP引擎,成功替代了原有的多引擎架构。该方案解决了兼容性、性能和运维等痛点,实现了集群规模达数十台、日PV超百万、查询P95达毫秒级的优异表现。文章详细介绍了从业务背景、选型评估到落地实践的全过程,重点阐述了基础建设中的监控体系、集群灾备和查询优化方案,并分享了QBI看板和趣分析等核心产品的迁移经验。通过语法兼容性改造和性能优化,StarRocks在去哪儿网实现了99%的Trino语法兼容率,查询性能提升超50%。未来规划包括Kubernetes部署和实

2025-08-09 00:20:08 1184

原创 金融科技新标杆:随行付大数据实时分析如何支撑百亿级秒级查询

随行付作为国内领先的支付基础设施平台,致力于携手合作伙伴与中小微企业,共建安全、稳定、高效运转的数字化支付生态,随着支付业务的快速发展,原有基于传统数据库 + Hive 与 Elasticsearch + Kudu + HBase 搭建的 Lambda 架构,逐渐暴露出实时性不足、架构复杂、数据冗余高等问题,为应对这一挑战,随行付重构了大数据分析体系,构建起以自研 Porter CDC + StarRocks + Elasticsearch 为核心的一体化实时架构,全面覆盖高并发明细查询、即席汇总分析和复杂

2025-08-06 23:34:40 1203

原创 Airtable 如何用 StarRocks 构建数据验证系统

归档冷数据至 S3,借助 StarRocks 实现一致性验证与存储降本作者:Riley ,Airtable 数据基础设施团队导读:开源无国界,在本期“StarRocks 全球用户精选案例”专栏中,我们将介绍总部位于旧金山的云端协作服务公司 Airtable。作为一家致力于让用户像操作表格一样轻松构建数据应用的企业,Airtable 在 2025 年完成了向 AI 原生应用平台 的转型,平台同时支持企业级安全与治理能力,并与外部系统集成,实现复杂业务流程的自动化。

2025-08-02 00:43:29 784

原创 Lakehouse x AI ,打造智能 BI 新体验

本文整理自瓴羊的王璟尧老师与镜舟科技石强老师的联合分享,围绕 Quick BI 在智能 BI 场景中的落地实践,深入探讨了 StarRocks 如何凭借 MPP 架构、实时分析能力与 AI 原生支持,成为智能分析的理想 Lakehouse 引擎底座,助力 BI 从“被动查询”迈向“主动决策”,开启数据“会说话”的新体验。

2025-07-25 23:54:32 971

原创 StarRocks × MinIO:打造灵活高效的存算分离方案

“存算分离”(Decoupled Storage and Compute)是一种在现代数据系统中被广泛采用的架构设计。它将计算和存储解耦,使二者可以独立扩展,提升资源利用率并降低运维成本。StarRocks 从 3.0 版本开始支持这一架构,允许用户将数据存储从计算节点中剥离,实现更灵活、弹性的系统部署。

2025-07-21 00:27:38 1336

原创 StarRocks Community Monthly Newsletter (Jun)

StarRocks 社区六月月刊已上线,本期看点满满:精选活动回顾、4-6 月布道师精选文章 Top 10 出炉、优秀入围作品、新晋社区大使登场,以及布道师积分更新!

2025-07-14 03:25:29 1300

原创 金融科技新标杆:随行付大数据实时分析如何支撑百亿级秒级查询

随行付作为国内领先的支付基础设施平台,致力于携手合作伙伴与中小微企业,共建安全、稳定、高效运转的数字化支付生态,持续为不同行业与场景提供融合支付与经营的一体化数字化解决方案。

2025-07-03 23:45:17 790

原创 实战|StarRocks 通过 JDBC Catalog 访问 MongoDB 的数据

本文章介绍如何通过 StarRocks 的 JDBC Catalog 功能,结合 MongoDB BI Connector,将 MongoDB 数据便捷接入 StarRocks,实现数据打通和 SQL 查询分析,以下是整体流程图。

2025-06-30 01:34:52 1194

原创 StarRocks 3.5 新特性解读:Snapshot 快照恢复、大导入性能全面升级、分区管理更智能

自 2023 年 4 月推出存算分离架构以来,StarRocks 在性能优化和功能迭代方面不断加速,以持续满足企业日益增长的数据分析需求。最新发布的 StarRocks 3.5 版本再次聚焦用户痛点,带来了一系列实用的新特性:新增的 Snapshot 快照恢复机制有效提升数据安全与灾备能力,大规模数据导入流程的优化持续提升易用性与稳定性。

2025-06-29 23:46:32 1275

原创 Unity Catalog 三大升级:Data+AI 时代的统一治理再进化

在刚刚落幕的 2025 Databricks Data + AI Summit 上,Databricks 重磅发布了多项 Lakehouse 相关功能更新。其中,面向数据湖治理场景的统一数据访问与管理方案 —— Unity Catalog,迎来了三大关键升级:全面支持 Apache Iceberg、面向业务用户的全新使用体验,以及数据治理与安全能力的持续增强。

2025-06-29 22:00:53 1146

原创 StarRocks Community Monthly Newsletter (May)

StarRocks近期发布多个版本更新与社区动态:3.5.0-RC01版本重点优化存算分离、数据湖分析功能,新增查询优化和安全管理特性;3.3.14版本修复了JSON处理、物化视图死锁等关键问题。社区贡献者开发了StarRocks查询预览工具和授权集成接口服务。技术文档新增异步物化视图支持索引等内容,并精选了多篇实践文章和视频教程。值得关注的是,StarRocks GitHub星标突破1万,举办了AI应用主题直播活动,同时表彰了5月社区答疑之星。相关资源可通过官方链接获取。

2025-06-15 23:04:10 1062

原创 基于 StarRocks + Iceberg,TRM Labs 构建 PB 级数据分析平台实践

作者:Vijay Shekhawat:TRM Labs 数据平台团队核心成员,精通实时流处理、数据湖仓架构及构建安全、高吞吐的数据分析管道,在推动 PB 级数据处理能力方面发挥了关键作用。Andrew Fisher:TRM Labs 资深软件工程师,擅长大规模批处理数据加载与数据湖仓方案,为应对加密欺诈提供坚实的数据基础和分析能力。导读:开源无国界,在本期“StarRocks 全球用户精选案例”专栏中,我们将介绍区块链情报公司 TRM Labs 的数据平台演进实践。

2025-06-02 18:28:57 1593

原创 StarRocks x Iceberg:云原生湖仓分析技术揭秘与最佳实践

本文将深入探讨基于 StarRocks 和 Iceberg 构建的云原生湖仓分析技术,详细解析两者结合如何实现高效的查询性能优化。内容涵盖 StarRocks Lakehouse 架构、与 Iceberg 的性能协同、最佳实践应用以及未来的发展规划,为您提供全面的技术解读。作者:杨关锁,北京镜舟科技研发工程师

2025-05-29 22:46:05 1916

原创 StarRocks+Paimon 落地阿里日志采集:万亿级实时数据秒级查询

A+ 流量分析平台是阿里集团统一的全域流量数据分析平台。从页面 &小站 &活动 &APP 等作为切入点,在经过埋点、采集、计算后,构建出宏观的概览数据、坑位效果、类目成交转化、路径分析、用户细分等,致力于打造流量数据分析闭环,快速帮助业务发现流量问题 &提升流量转化。当前,流量采集团队每天需要的日志数据达到万亿级,在写入和查询面临着巨大挑战:

2025-05-26 10:33:28 1070

原创 10K Stars 成就达成,StarRocks 开启下一个里程碑!

StarRocks 突破一万星🌟啦!🎉 感谢与我们一同见证这一历史时刻的伙伴们。从“极速统一 OLAP”到“Lakehouse is All You Need”,三年间,我们见证了 StarRocks 功能的飞速进化与迭代,也见证了社区的茁壮成长。越来越多的用户在不同场景中使用 StarRocks,与我们一起“升级打怪”,不断解锁数据背后的业务价值。如今,StarRocks 即将开启全新副本!你准备好迎接 AI 时代带来的进阶挑战了吗?

2025-05-18 22:01:38 339

原创 StarRocks Community Monthly Newsletter (Apr)

本文概述了StarRocks数据库系统在多个版本中的更新内容,包括功能优化、性能提升和问题修复。3.4.3版本主要增强了RoutineLoad和StreamLoad功能,支持Lambda表达式和JSON数据处理,同时优化了查询性能和稳定性。3.4.2版本引入了FE优雅退出机制,并修复了多个性能问题。3.3.13版本则优化了审计日志和QueryDetail接口,增强了LDAP授权验证机制,并修复了多个安全问题。此外,文章还介绍了StarRocks集群运维工具和权限可视化工具的开发亮点,以及社区活动和文档更新,

2025-05-18 17:35:01 1545

原创 StarRocks MCP Server 开源发布:为 AI 应用提供强大分析中枢

StarRocksMCPServer通过引入MCP(ModelContextProtocol)协议,为大型语言模型(LLM)如Claude、OpenAI、Gemini等提供了一个标准化接口,使其能够直接访问和查询StarRocks数据库,无需开发专用插件或复杂配置。MCP协议类似于AI世界的“USB接口”,确保不同AI模型和智能代理能够无缝连接和交换信息。StarRocksMCPServer的核心功能包括工具(如执行SQL查询、生成图表)、资源(如数据库和表的元信息)和提示词(引导模型交互)

2025-05-17 22:53:53 1883

原创 从InfluxDB到StarRocks:Grab实现Spark监控平台10倍性能提升

Grab作为东南亚领先的超级应用,通过其Spark可观测平台Iris优化了监控性能。Iris通过收集和分析Spark作业的指标与元数据,提供实时性能监控,解决了传统监控工具在EC2实例级别提供指标的局限。然而,随着业务扩展,Iris面临数据分散、用户体验不一致和运营开销增加等挑战。为此,Grab将Iris的核心存储迁移至StarRocks,实现了实时与历史数据的统一存储,简化了数据管道,并通过物化视图和动态分区机制显著提升了查询性能和资源使用效率。新架构还引入了自定义Web应用,取代了Grafana,提供了

2025-05-11 18:59:31 2023

原创 StarRocks 查询优化器深度解析

1. 优化器成本估算中的错误不可避免,执行器需要能够根据运行时的真实统计信息做出自主决策,并提供及时反馈。因此,Cost-based 优化器需要与 Adaptive Execution 和 Query Feedback 紧密结合。2. 在工程中,除了优化器本身,优化器的测试系统同样至关重要。优化器需要通过正确性测试、性能测试和计划质量测试等多方面的验证。或许,整个数据库开源生态可能还需要一个优秀的优化器测试系统和公开可复用的开源测试数据集。3. Null 和 Nullable 的挑战。

2025-04-30 00:01:56 1816

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除