• 博客(237)
  • 收藏
  • 关注

原创 10K Stars 成就达成,StarRocks 开启下一个里程碑!

StarRocks 突破一万星🌟啦!🎉 感谢与我们一同见证这一历史时刻的伙伴们。从“极速统一 OLAP”到“Lakehouse is All You Need”,三年间,我们见证了 StarRocks 功能的飞速进化与迭代,也见证了社区的茁壮成长。越来越多的用户在不同场景中使用 StarRocks,与我们一起“升级打怪”,不断解锁数据背后的业务价值。如今,StarRocks 即将开启全新副本!你准备好迎接 AI 时代带来的进阶挑战了吗?

2025-05-18 22:01:38 154

原创 StarRocks Community Monthly Newsletter (Apr)

本文概述了StarRocks数据库系统在多个版本中的更新内容,包括功能优化、性能提升和问题修复。3.4.3版本主要增强了RoutineLoad和StreamLoad功能,支持Lambda表达式和JSON数据处理,同时优化了查询性能和稳定性。3.4.2版本引入了FE优雅退出机制,并修复了多个性能问题。3.3.13版本则优化了审计日志和QueryDetail接口,增强了LDAP授权验证机制,并修复了多个安全问题。此外,文章还介绍了StarRocks集群运维工具和权限可视化工具的开发亮点,以及社区活动和文档更新,

2025-05-18 17:35:01 1152

原创 StarRocks MCP Server 开源发布:为 AI 应用提供强大分析中枢

StarRocksMCPServer通过引入MCP(ModelContextProtocol)协议,为大型语言模型(LLM)如Claude、OpenAI、Gemini等提供了一个标准化接口,使其能够直接访问和查询StarRocks数据库,无需开发专用插件或复杂配置。MCP协议类似于AI世界的“USB接口”,确保不同AI模型和智能代理能够无缝连接和交换信息。StarRocksMCPServer的核心功能包括工具(如执行SQL查询、生成图表)、资源(如数据库和表的元信息)和提示词(引导模型交互)

2025-05-17 22:53:53 1330

原创 从InfluxDB到StarRocks:Grab实现Spark监控平台10倍性能提升

Grab作为东南亚领先的超级应用,通过其Spark可观测平台Iris优化了监控性能。Iris通过收集和分析Spark作业的指标与元数据,提供实时性能监控,解决了传统监控工具在EC2实例级别提供指标的局限。然而,随着业务扩展,Iris面临数据分散、用户体验不一致和运营开销增加等挑战。为此,Grab将Iris的核心存储迁移至StarRocks,实现了实时与历史数据的统一存储,简化了数据管道,并通过物化视图和动态分区机制显著提升了查询性能和资源使用效率。新架构还引入了自定义Web应用,取代了Grafana,提供了

2025-05-11 18:59:31 1380

原创 StarRocks 查询优化器深度解析

1. 优化器成本估算中的错误不可避免,执行器需要能够根据运行时的真实统计信息做出自主决策,并提供及时反馈。因此,Cost-based 优化器需要与 Adaptive Execution 和 Query Feedback 紧密结合。2. 在工程中,除了优化器本身,优化器的测试系统同样至关重要。优化器需要通过正确性测试、性能测试和计划质量测试等多方面的验证。或许,整个数据库开源生态可能还需要一个优秀的优化器测试系统和公开可复用的开源测试数据集。3. Null 和 Nullable 的挑战。

2025-04-30 00:01:56 1178

原创 从被动救火到主动预防,StarRocks 监控与告警全攻略

在日常运维中,我们常常面临突发问题,只能疲于“救火”。本文将从等多个维度出发,介绍如何构建一套有效的监控与告警体系,实现从被动响应到主动干预,让问题止于萌芽阶段。本文重点聚焦于,不对监控系统的搭建流程进行详细展开。如需了解具体部署方式,可参考官方文档:https://docs.starrocks.io/zh/docs/administration/management/monitoring/Monitor_and_Alert/

2025-04-27 12:51:13 694

原创 RAG 实战|用 StarRocks + DeepSeek 构建智能问答与企业知识库

RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合外部知识检索与 AI 生成的技术,弥补了传统大模型知识静态、易编造信息的缺陷,使回答更加准确且基于实时信息。

2025-04-25 13:57:31 948

原创 RAG 实战|用 StarRocks + DeepSeek 构建智能问答与企业知识库

RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合外部知识检索与 AI 生成的技术,弥补了传统大模型知识静态、易编造信息的缺陷,使回答更加准确且基于实时信息。

2025-04-18 23:43:01 1295

原创 StarRocks Community Monthly Newsletter (Mar)

核心功能升级数据安全与权限管控支持「安全视图」功能,严格管控视图查询权限MySQL协议连接支持SSL认证,保障数据传输安全存算分离架构增强支持自动创建Snapshot(集群恢复更便捷)Storage Volume新增Azure Data Lake Gen2支持分析能力优化湖分析支持Delta Lake Deletion Vector支持高精度去重函数Sketch HLL(精度优于approx_count_distinct)性能与稳定性提升写入优化:多数副本提交成功即可完成事务(原需全部副本)🔎Releas

2025-04-17 21:22:49 801

原创 千万级数据秒级响应!碧桂园服务技术引擎重构智慧社区新标杆

碧服这次的存算分离实践不仅仅是一项技术升级,更是一场数字化转型的战略跃迁。依托海量大数据,碧服结合AI和大模型,打造了“一看”和“一问”的智能场景。通过“看现在”,系统能实时捕捉业务状态,为企业决策提供精准数据支持,从而助力精益运营、提升效率和降低成本;而“知未来”则赋予企业商业洞察力,既能精准挖掘市场机会和业户需求,又能提前预测设备故障,自动发起维保工单,有效规避风险,从而大幅提升用户满意度。迁移升级只是起点,为了进一步提升系统性能,碧服技术团队将持续总结经验,并积极推进以下优化措施。

2025-04-11 15:40:09 773

原创 StarRocks 助力首汽约车精细化运营

首汽约车成立于 2015 年,主营网约车业务,曾为冬奥会、冬残奥会等国家级重点会议提供出行服务。公司最初仅在北京运营,随后逐步扩展至全国。目前,我们的业务已覆盖全国 200 多个城市。首汽约车专注于特色化业务和差异化运营,服务用户涵盖 To C 和 To B 两大类。我们不仅面向普通消费者,也为商务人士提供高品质出行服务,满足不同用户的需求,包括服务敏感型和价格敏感型群体。总结来说,基于我们引入 StarRocks 以及在底层建设上的努力,我们在性能统一、场景拓展和效率提升方面取得了显著突破。

2025-04-08 23:02:39 937

原创 StarRocks 存算分离在京东物流的落地实践

康琪:京东物流高级技术专家、StarRocks & Apache Flink Contributor导读:本文整理自京东物流高级技术专家在 StarRocks 年度峰会上的分享,UData 平台从存算一体到存算分离架构演进后,查询性能得到提升。Cache hit 时,P95 和 P99 查询延迟小于 10 秒,与存算一体架构相当;Cache miss时,查询响应不超过 1 分钟,远优于 Hive。在 OSS 性能和降本方面,存储成本减少了 90%,主要得益于从本地 SSD 转向 OSS 对象存储。

2025-03-29 19:57:26 1143

原创 【活动回顾】StarRocks Singapore Meetup #2 @Shopee

3 月 13 日,StarRocks 社区在新加坡成功举办了第二场 Meetup 活动,主题为“Empowering Customer-Facing Analytics”。本次活动在 Shopee 新加坡办公室举行,吸引了来自 Shopee、Grab 和 Pinterest 的专家讲师以及 50 多位参会者。大家围绕电商、BI 报表和广告场景中的数据分析挑战展开了深入探讨,并分享了如何利用 StarRocks 为关键业务提供更快、更精准的数据分析解决方案

2025-03-27 18:02:33 1264

原创 vivo 湖仓架构的性能提升之旅

在StarRocks年度峰会上的分享,聚焦vivo大数据多维分析面临的挑战、StarRocks 落地方案及应用收益在即席分析场景,StarRocks使用占比达70%、查询速度提升3倍,P50耗时从63.77 缩短至22.30秒,查询成功率接近98%在敏捷BI领域,StarRocks已完成25%切换,月均查询成功数超25万,P90查询时长缩短至5秒,相比Presto提升75%在研发工具平台方面,StarRocks支持准实时数据见性缩短至3分钟,查询加速使 P95延迟降至400毫秒,开发效率提升30%

2025-03-21 22:55:23 951

原创 StarRocks + Paimon 在阿里集团 Lakehouse 的探索与实践

阿里集团在推进湖仓一体化建设过程中,依托 StarRocks 强大的 OLAP 查询能力与 Paimon 的高效数据入湖特性,实现了流批一体、存储成本大幅下降、查询性能数倍提升的显著成效:A+ 业务借助 Paimon 的准实时入湖,显著降低了存储成本,并引入 StarRocks 提升查询性能。升级后,数据时效提前60分钟,开发效率提升50%;JSON列化存储减少50%,查询性能提升最高达10倍;OLAP分析中,非JOIN查询快1倍,JOIN查询快5倍。饿了么升级为准实时Lakehouse架构后,在时

2025-03-14 09:16:59 1192

原创 微信基于 StarRocks 的实时因果推断实践

作者:张婧婧 腾旭微信数据科学家熊吉祥 腾讯微信 OLAP 研发工程师、StarRocks Contributor本文整理自微信工程师在 StarRocks 年度峰会上的分享,介绍了因果推断在业务中的应用,详细阐述了基于 StarRocks 构建因果推断分析工具的技术方案,通过高效算子的支持,大幅提升了计算效率。例如,t 检验在 6亿行数据上的执行时间仅需 1 秒。StarRocks 还实现了实时数据整合,支持多种数据源(如 Iceberg 和 Hive)的无缝访问,进一步增强了平台的灵活性与应

2025-03-13 08:55:55 789

原创 韩国互联网巨头 NAVER 如何借助 StarRocks 实现实时数据洞察

在 NAVER,高效处理多表 JOIN 的能力彻底改变了我们的分析平台。StarRocks 帮助我们突破了以往的限制,实现了更快的查询性能、无缝扩展性,以及与多元数据源集成的统一查询平台。这些改进使我们能够提供实时洞察,支持整个生态系统中的数据驱动决策。

2025-03-05 14:05:06 1061

原创 StarRocks x Demandbase ,助力北美 ABM 营销平台降本 90%!

开源无国界,在专栏中,我们将介绍北美营销平台 Demandbase 的用户案例。Demandbase 于 2007 年创立于美国加州旧金山,专注于 AI 驱动的 ABM 平台,助力 B2B 营销人员实现业务突破。通过将 ClickHouse 替换为 StarRocks,Demandbase 解决了性能与灵活性问题。新架构基于 Apache Iceberg 和 StarRocks,显著提升了数据处理效率,硬件资源减少 60%,存储成本降低 90%,ETL 管道简化,运营负担大幅减轻。

2025-02-28 11:43:52 1086

原创 小红书湖仓架构的跃迁之路

作者:李鹏霖(丁典),小红书-研发工程师,StarRocks Contributor & Apache Impala Committer本文整理自小红书工程师在 StarRocks 年度峰会上的分享,介绍了小红书自助分析平台中,StarRocks 与 Iceberg 结合后,如何实现极速湖仓分析架构。与原有架构相比,湖上分析架构的同时,采用 Iceberg 存储格式后,尽管数据量和行数保持不变,但实际存储空间相较原有 ClickHouse 存算分离版本减少了一半。

2025-02-28 11:39:24 1449

原创 StarRocks 在爱奇艺大数据场景的实践

在爱奇艺的大数据分析场景中,通常需要实现两个核心目标:一是看过去,包括生成报表、分析剧集热度以及会员运营等;二是知未来,即预测用户增长和预估收入。虽然我们的最终目标是精准预测未来,但由于这一任务难度较大,我们更多地是通过精准的报表和历史数据分析,挖掘数据中的潜在价值,从而为未来决策提供支持。

2025-02-28 11:17:25 1064

原创 腾讯大数据基于 StarRocks 的向量检索探索

什么是向量检索呢?简单来说,向量检索是通过给定一个查询向量,在特征数据库中找到与之距离最近的 k 个向量。举个例子,如果我们把今天会场的所有人作为特征向量,那么向量检索的任务就是找到与我最相似的 10 个人。用通俗的语言来说,它其实就是一个 Top N 查询。虽然本质上,向量检索就是一个 Top N 查询,但由于深度学习中几乎所有内容都用向量表示,所以我们将其称为“向量检索”。在单机环境下,我们在 30 万到 100 万数据规模和 50 维向量的情况下,可以实现十几毫秒的延迟。

2025-02-12 14:27:32 1390

原创 StarRocks 3.4 发布--AI 场景新支点,Lakehouse 能力再升级

自 StarRocks 3.0 起,社区明确了以 Lakehouse 为核心的发展方向。Lakehouse 的价值在于融合数据湖与数据仓库的优势,能有效应对大数据量增长带来的存储成本压力,做到 single source of truth 的同时继续拥有极速的查询性能,同时也为 AI 时代的多样化数据需求提供可扩展的高效访问能力。构建 Lakehouse 后,你将拥有开放统一的数据存储与基于一份数据,支持多样化的 workload,服务企业 AI、BI 的数据应用,进而实现的业务价值。

2025-01-21 14:25:46 1366

原创 湖仓进化,极速统一|StarRocks 2024 社区年度报告

延伸阅读:Lakehouse 白皮书 | 从理论到落地的现代数据架构升级指南StarRocks 开源三周年:初心不忘,征程不止!StarRocks Awards 2024 年度贡献人物StarRocks 培训课程重磅上线!专家出品,助你升级打怪不走弯路!更多交流,联系我们:StarRocks

2025-01-21 11:10:21 189

原创 从 Spark 到 StarRocks:实现58同城湖仓一体架构的高效转型

在使用 StarRocks 的过程中,我们从实践中总结出了关于性能、稳定性和易用性的关键经验。

2025-01-20 20:16:40 1991

原创 StarRocks Awards 2024 年度贡献人物

这个奖项分为两个主要类别:以代码贡献为主的“DEV”类和以布道为主的“Advocacy”类,并根据加入社区的时间与贡献分成了 Master 与 Knight 两个等级。在过去一年,StarRocks 在 Lakehouse 与 AI 等关键领域取得了显著进步,其卓越的产品功能极大地简化和提升了数据分析的效率,使得。以下是 StarRocks Awards 2024 的获奖者名单及得奖人们给社区的一些话,期待明年看到更多新面孔出现在这份荣誉榜上!

2025-01-09 18:26:21 653

原创 直播预告|StarRocks 3.4,打造 AI 时代的智能数据基座,应用场景全面扩展

随着新年的到来,StarRocks 3.4 即将上线,为 AI Workload 和更多应用场景提供强大支持!此次升级聚焦于提升 AI 场景支持,并扩展更多应用场景,全方位提升数据分析体验。1 月 15 日(周三)晚 19:00,我们特别邀请了镜舟科技的 PM 李蛟,与大家一起深入解读 3.4 版本的亮点功能。优化性能,提升易用性,进一步完善对 Iceberg 和 Delta Lake 的支持。:支持优雅退出、checkpoint,备份与恢复功能更全面。统一分区设计,高并发实时导入与批量导入更易用。

2025-01-07 20:08:11 323

原创 40% 降本:多点 DMALL x StarRocks 的湖仓升级实战

在 StarRocks 的升级之路中,我们曾尝试压缩单个 CN Pod 的内存,扩大 CN Pod 的数量,以提升 Kubernetes Node 的装箱率。但测试后发现,这种优化方式并不适用于 StarRocks。即使是在 Kubernetes 部署模式下,StarRocks 也需要配置较大内存和 CPU 的 Pod 来保证服务质量。多点 DMALL 专注于 To B 业务,在“降本增效”的大背景下,客户对于成本和价值的敏感度更高。

2025-01-03 14:40:21 1152

原创 StarRocks 存算分离在得物的降本增效实践

此次迁移达成了预期的成本和性能的收益目标,也拓展了集群未来的成长空间,也让业务团队和引擎团队都更加的了解 StarRocks,收获大量迁移经验,为将来迁移其他业务提供了有说服力的范例。在迁移过程中,我们与社区保持了紧密的联系,获得了社区大量帮助,也贡献了大量 patch 给社区,减少社区其他人需要踩的坑。在我们得物内部 StarRocks 的未来规划中,我们也将继续深度参与社区。StarRocks。

2024-12-27 16:01:01 1932

原创 深入解析 StarRocks 物化视图:全方位的查询改写机制

本文主要介绍了 StarRocks 中物化视图查询改写的技术原理,从优化器的执行流程,到对不同查询的处理 Join、Aggregation、View、Union 等,以及内部视角的反省和外部视角的对比。希望本文能够对关心技术原理的读者有所帮助,对 StarRocks 的用户带来更多的技术洞察和业务启发

2024-12-20 16:14:31 1150

原创 Lakehouse is ALL you need

回到今天的主题——。对于数据工程师:无需维护复杂的 ETL Pipeline对于数据分析师:可以实时高效地在数据湖上进行探索和分析对于数据科学家:直接访问数据湖上的开放数据,构建 AI 应用对于企业的经营管理者:通过简单高效的数据分析,实时推动企业经营决策Lakehouse 的确拥有非常大价值,而 StarRocks 作为最适合 BI 数据分析的 Lakehouse 引擎,可以让数据湖中的数据高效地转化为价值。正是你们的努力,使得 StarRocks 不断成长和进步。

2024-12-17 19:10:00 1765

原创 StarRocks Summit Asia 2024 全部议程公布!

随着企业数字化转型深入,云原生架构正成为湖仓部署的新标准。弹性扩展、资源隔离、成本优化,帮助企业在云上获得了更高的灵活性和效率。与此同时,云原生架构也为湖仓与 AI 的深度融合奠定了基础。在过去一年,湖仓技术与 AI 的结合催生了许多创新应用。从实时特征工程到大规模向量检索,从智能查询优化到自适应资源调度,湖仓架构正在和 AI 碰撞出更多新场景、新故事,StarRocks Summit Asia 2024 分论坛将带为你揭晓这些创新洞察和成熟实践。

2024-11-14 20:22:33 660

原创 StarRocks 在 Shopee 数据产品的实践

StarRocks 是一款 SQL 查询引擎,能够在数据湖仓上提供数据仓库级别的性能。StarRocks 是一款出色的分析引擎,具有强大的功能,例如向量化执行引擎、基于成本的优化器、数据缓存和具有透明查询重写能力的物化视图。除了其自管理的专有表格式外,它还支持直接查询大多数流行的数据湖表格式,如 Hive、Iceberg、Delta Lake 和 Hudi。借助其内置的目录功能,只需一个创建外部目录的 SQL 语句,即可立即部署 StarRocks 并查询数据湖表。

2024-11-07 17:25:31 1184

原创 Paimon x StarRocks 助力喜马拉雅构建实时湖仓

首先,简要介绍一下喜马拉雅的业务。我们的直播业务主要分为音频直播、视频直播以及多人娱乐厅三大类。音频直播:由专业主播为用户提供有声书、知识讲座等内容。视频直播:与市面上多数视频直播类似,包括主播表演和游戏直播等内容。多人娱乐厅:为用户提供一个互动交流的平台,他们可以与主持人共同参与讨论或活动。

2024-10-31 20:27:48 1078

原创 啊?原来社区大佬们是这样的人!

你们认识的社区大佬们都是怎样的?在社区里热心回答用户的问题、时常在各平台输出干货或是提 PR 的手速快的惊人?今天程序员节我们不聊代码,我们要来揭秘大佬们鲜为人知的一面,分享他们在生活中的那些隐藏技能:在高强度的工作下如何成为时间管理大师?如何狂减 90 斤,在短短一年间成为健身达人?他们是如何在开源社区里不断成长?与来自世界各地的开发者交流的时候又有哪些文化/语言上的趣事?在 AI 时代下,大佬们是如何保持高效学习的?

2024-10-25 18:17:05 444

原创 洞见数据未来,StarRocks Summit Asia 2024 即将启幕!

数据量和数据类型的需求飞速上涨,我们不仅需要将历史上各种基础设施中的数据进行分析使用,还要关注性能、灵活性、性价比,以及确保单一可信数据源。本届峰会,我们将深入探讨 "Data + AI" 时代下的极速统一架构—— Lakehouse 在各行业的应用与实践、云原生架构优势和更多创新应用场景,探索数据的无限可能。StarRocks 社区现诚挚地邀请在数据库技术、AI 领域内的企业机构、社区和媒体伙伴一起共建共创,推进数据与 AI 生态和行业交流和技术进步。在 AI 时代,我们需要怎样的数据基础软件?

2024-10-24 19:46:54 403

原创 StarRocks Lakehouse 快速入门——Hive Catalog

Apache Hive 是一个分布式、容错的数据仓库系统,能够实现大规模的分析。Hive Metastore (HMS) 提供了一个元数据存储库,可以轻松分析这些元数据以做出基于数据的决策,因此它是许多数据湖架构中的关键组件。Hive 构建于 Apache Hadoop 之上,并通过 HDFS 支持在 S3、ADLS、GS 等存储上的数据管理。Hive 允许用户使用 SQL 读取、写入和管理 PB 级的数据。

2024-10-17 17:45:57 924

原创 七猫如何用StarRocks 打造用户增长新引擎?

七猫的数仓团队主要是承接七猫各条业务线的离线数据开发、实时数据开发、指标建设、数据治理等工作。我加入七猫大约两年时间,加入后第一件事就是引入 StarRocks。现在七猫有五套 StarRocks 集群在生产环境投入了使用。据不完全统计,数据治理前离线数据加实时数据,总数据量大约在 20PB 左右。那我们是如何维护和管理这些数据的呢?下面会通过一张简化版的数据架构图来介绍。这些数据会通过日志埋点的形式上报到日志接收系统。日志接收系统会将用户行为数据和广告数据进行分流,分别存在两个 Kafka 里面。

2024-09-27 16:31:51 1243

原创 饿了么基于Flink+Paimon+StarRocks的实时湖仓探索

作者:王沛斌@饿了么本文整理自饿了么大数据架构师、Apache Flink Contributor 王沛斌老师在8月3日 Streaming Lakehouse Meetup Online(Paimon x StarRocks,共话实时湖仓架构)上的分享。主要分为以下三个内容:1. 饿了么实时数仓演进之路2. 实时湖仓方案选型与探索3. 实时湖仓规划及展望。

2024-09-26 18:00:34 1749 1

原创 StarRocks 培训课程重磅上线!专家出品,助你升级打怪不走弯路!

今年已过了大半,大家的学习进度条进展如何?如果你对 StarRocks 的基础知识还有疑惑,或在寻找系统性的学习方法,不必灰心,因为 Rocky 要来助你一臂之力啦!

2024-09-10 19:56:51 578 2

原创 StarRocks Lakehouse 快速入门——Apache Iceberg

Apache Iceberg 是一种为大规模、复杂数据集设计的开源表格式,这些数据集跨越了 PB 级别的数据。最初作为 Netflix 管理海量表的解决方案,于 2018 年在 Apache 孵化器下开源,并在 2020 年毕业。Apache Iceberg 作为一种复杂的开放表格式,位于计算引擎(如 Flink 和 Spark)和存储格式(如 ORC、Parquet 和 Avro)之间。它作为一个中间件层,抽象了底层数据存储格式的复杂性,并向计算框架上层提供了统一的表格语义。

2024-09-06 14:34:24 1674

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除