• 博客(226)
  • 收藏
  • 关注

原创 StarRocks 存算分离在京东物流的落地实践

康琪:京东物流高级技术专家、StarRocks & Apache Flink Contributor导读:本文整理自京东物流高级技术专家在 StarRocks 年度峰会上的分享,UData 平台从存算一体到存算分离架构演进后,查询性能得到提升。Cache hit 时,P95 和 P99 查询延迟小于 10 秒,与存算一体架构相当;Cache miss时,查询响应不超过 1 分钟,远优于 Hive。在 OSS 性能和降本方面,存储成本减少了 90%,主要得益于从本地 SSD 转向 OSS 对象存储。

2025-03-29 19:57:26 1064

原创 【活动回顾】StarRocks Singapore Meetup #2 @Shopee

3 月 13 日,StarRocks 社区在新加坡成功举办了第二场 Meetup 活动,主题为“Empowering Customer-Facing Analytics”。本次活动在 Shopee 新加坡办公室举行,吸引了来自 Shopee、Grab 和 Pinterest 的专家讲师以及 50 多位参会者。大家围绕电商、BI 报表和广告场景中的数据分析挑战展开了深入探讨,并分享了如何利用 StarRocks 为关键业务提供更快、更精准的数据分析解决方案

2025-03-27 18:02:33 1208

原创 vivo 湖仓架构的性能提升之旅

在StarRocks年度峰会上的分享,聚焦vivo大数据多维分析面临的挑战、StarRocks 落地方案及应用收益在即席分析场景,StarRocks使用占比达70%、查询速度提升3倍,P50耗时从63.77 缩短至22.30秒,查询成功率接近98%在敏捷BI领域,StarRocks已完成25%切换,月均查询成功数超25万,P90查询时长缩短至5秒,相比Presto提升75%在研发工具平台方面,StarRocks支持准实时数据见性缩短至3分钟,查询加速使 P95延迟降至400毫秒,开发效率提升30%

2025-03-21 22:55:23 888

原创 StarRocks + Paimon 在阿里集团 Lakehouse 的探索与实践

阿里集团在推进湖仓一体化建设过程中,依托 StarRocks 强大的 OLAP 查询能力与 Paimon 的高效数据入湖特性,实现了流批一体、存储成本大幅下降、查询性能数倍提升的显著成效:A+ 业务借助 Paimon 的准实时入湖,显著降低了存储成本,并引入 StarRocks 提升查询性能。升级后,数据时效提前60分钟,开发效率提升50%;JSON列化存储减少50%,查询性能提升最高达10倍;OLAP分析中,非JOIN查询快1倍,JOIN查询快5倍。饿了么升级为准实时Lakehouse架构后,在时

2025-03-14 09:16:59 1066

原创 微信基于 StarRocks 的实时因果推断实践

作者:张婧婧 腾旭微信数据科学家熊吉祥 腾讯微信 OLAP 研发工程师、StarRocks Contributor本文整理自微信工程师在 StarRocks 年度峰会上的分享,介绍了因果推断在业务中的应用,详细阐述了基于 StarRocks 构建因果推断分析工具的技术方案,通过高效算子的支持,大幅提升了计算效率。例如,t 检验在 6亿行数据上的执行时间仅需 1 秒。StarRocks 还实现了实时数据整合,支持多种数据源(如 Iceberg 和 Hive)的无缝访问,进一步增强了平台的灵活性与应

2025-03-13 08:55:55 729

原创 韩国互联网巨头 NAVER 如何借助 StarRocks 实现实时数据洞察

在 NAVER,高效处理多表 JOIN 的能力彻底改变了我们的分析平台。StarRocks 帮助我们突破了以往的限制,实现了更快的查询性能、无缝扩展性,以及与多元数据源集成的统一查询平台。这些改进使我们能够提供实时洞察,支持整个生态系统中的数据驱动决策。

2025-03-05 14:05:06 996

原创 StarRocks x Demandbase ,助力北美 ABM 营销平台降本 90%!

开源无国界,在专栏中,我们将介绍北美营销平台 Demandbase 的用户案例。Demandbase 于 2007 年创立于美国加州旧金山,专注于 AI 驱动的 ABM 平台,助力 B2B 营销人员实现业务突破。通过将 ClickHouse 替换为 StarRocks,Demandbase 解决了性能与灵活性问题。新架构基于 Apache Iceberg 和 StarRocks,显著提升了数据处理效率,硬件资源减少 60%,存储成本降低 90%,ETL 管道简化,运营负担大幅减轻。

2025-02-28 11:43:52 1049

原创 小红书湖仓架构的跃迁之路

作者:李鹏霖(丁典),小红书-研发工程师,StarRocks Contributor & Apache Impala Committer本文整理自小红书工程师在 StarRocks 年度峰会上的分享,介绍了小红书自助分析平台中,StarRocks 与 Iceberg 结合后,如何实现极速湖仓分析架构。与原有架构相比,湖上分析架构的同时,采用 Iceberg 存储格式后,尽管数据量和行数保持不变,但实际存储空间相较原有 ClickHouse 存算分离版本减少了一半。

2025-02-28 11:39:24 1341

原创 StarRocks 在爱奇艺大数据场景的实践

在爱奇艺的大数据分析场景中,通常需要实现两个核心目标:一是看过去,包括生成报表、分析剧集热度以及会员运营等;二是知未来,即预测用户增长和预估收入。虽然我们的最终目标是精准预测未来,但由于这一任务难度较大,我们更多地是通过精准的报表和历史数据分析,挖掘数据中的潜在价值,从而为未来决策提供支持。

2025-02-28 11:17:25 983

原创 腾讯大数据基于 StarRocks 的向量检索探索

什么是向量检索呢?简单来说,向量检索是通过给定一个查询向量,在特征数据库中找到与之距离最近的 k 个向量。举个例子,如果我们把今天会场的所有人作为特征向量,那么向量检索的任务就是找到与我最相似的 10 个人。用通俗的语言来说,它其实就是一个 Top N 查询。虽然本质上,向量检索就是一个 Top N 查询,但由于深度学习中几乎所有内容都用向量表示,所以我们将其称为“向量检索”。在单机环境下,我们在 30 万到 100 万数据规模和 50 维向量的情况下,可以实现十几毫秒的延迟。

2025-02-12 14:27:32 1312

原创 StarRocks 3.4 发布--AI 场景新支点,Lakehouse 能力再升级

自 StarRocks 3.0 起,社区明确了以 Lakehouse 为核心的发展方向。Lakehouse 的价值在于融合数据湖与数据仓库的优势,能有效应对大数据量增长带来的存储成本压力,做到 single source of truth 的同时继续拥有极速的查询性能,同时也为 AI 时代的多样化数据需求提供可扩展的高效访问能力。构建 Lakehouse 后,你将拥有开放统一的数据存储与基于一份数据,支持多样化的 workload,服务企业 AI、BI 的数据应用,进而实现的业务价值。

2025-01-21 14:25:46 1257

原创 湖仓进化,极速统一|StarRocks 2024 社区年度报告

延伸阅读:Lakehouse 白皮书 | 从理论到落地的现代数据架构升级指南StarRocks 开源三周年:初心不忘,征程不止!StarRocks Awards 2024 年度贡献人物StarRocks 培训课程重磅上线!专家出品,助你升级打怪不走弯路!更多交流,联系我们:StarRocks

2025-01-21 11:10:21 173

原创 从 Spark 到 StarRocks:实现58同城湖仓一体架构的高效转型

在使用 StarRocks 的过程中,我们从实践中总结出了关于性能、稳定性和易用性的关键经验。

2025-01-20 20:16:40 1910

原创 StarRocks Awards 2024 年度贡献人物

这个奖项分为两个主要类别:以代码贡献为主的“DEV”类和以布道为主的“Advocacy”类,并根据加入社区的时间与贡献分成了 Master 与 Knight 两个等级。在过去一年,StarRocks 在 Lakehouse 与 AI 等关键领域取得了显著进步,其卓越的产品功能极大地简化和提升了数据分析的效率,使得。以下是 StarRocks Awards 2024 的获奖者名单及得奖人们给社区的一些话,期待明年看到更多新面孔出现在这份荣誉榜上!

2025-01-09 18:26:21 637

原创 直播预告|StarRocks 3.4,打造 AI 时代的智能数据基座,应用场景全面扩展

随着新年的到来,StarRocks 3.4 即将上线,为 AI Workload 和更多应用场景提供强大支持!此次升级聚焦于提升 AI 场景支持,并扩展更多应用场景,全方位提升数据分析体验。1 月 15 日(周三)晚 19:00,我们特别邀请了镜舟科技的 PM 李蛟,与大家一起深入解读 3.4 版本的亮点功能。优化性能,提升易用性,进一步完善对 Iceberg 和 Delta Lake 的支持。:支持优雅退出、checkpoint,备份与恢复功能更全面。统一分区设计,高并发实时导入与批量导入更易用。

2025-01-07 20:08:11 290

原创 40% 降本:多点 DMALL x StarRocks 的湖仓升级实战

在 StarRocks 的升级之路中,我们曾尝试压缩单个 CN Pod 的内存,扩大 CN Pod 的数量,以提升 Kubernetes Node 的装箱率。但测试后发现,这种优化方式并不适用于 StarRocks。即使是在 Kubernetes 部署模式下,StarRocks 也需要配置较大内存和 CPU 的 Pod 来保证服务质量。多点 DMALL 专注于 To B 业务,在“降本增效”的大背景下,客户对于成本和价值的敏感度更高。

2025-01-03 14:40:21 1105

原创 StarRocks 存算分离在得物的降本增效实践

此次迁移达成了预期的成本和性能的收益目标,也拓展了集群未来的成长空间,也让业务团队和引擎团队都更加的了解 StarRocks,收获大量迁移经验,为将来迁移其他业务提供了有说服力的范例。在迁移过程中,我们与社区保持了紧密的联系,获得了社区大量帮助,也贡献了大量 patch 给社区,减少社区其他人需要踩的坑。在我们得物内部 StarRocks 的未来规划中,我们也将继续深度参与社区。StarRocks。

2024-12-27 16:01:01 1864

原创 深入解析 StarRocks 物化视图:全方位的查询改写机制

本文主要介绍了 StarRocks 中物化视图查询改写的技术原理,从优化器的执行流程,到对不同查询的处理 Join、Aggregation、View、Union 等,以及内部视角的反省和外部视角的对比。希望本文能够对关心技术原理的读者有所帮助,对 StarRocks 的用户带来更多的技术洞察和业务启发

2024-12-20 16:14:31 1092

原创 Lakehouse is ALL you need

回到今天的主题——。对于数据工程师:无需维护复杂的 ETL Pipeline对于数据分析师:可以实时高效地在数据湖上进行探索和分析对于数据科学家:直接访问数据湖上的开放数据,构建 AI 应用对于企业的经营管理者:通过简单高效的数据分析,实时推动企业经营决策Lakehouse 的确拥有非常大价值,而 StarRocks 作为最适合 BI 数据分析的 Lakehouse 引擎,可以让数据湖中的数据高效地转化为价值。正是你们的努力,使得 StarRocks 不断成长和进步。

2024-12-17 19:10:00 1741

原创 StarRocks Summit Asia 2024 全部议程公布!

随着企业数字化转型深入,云原生架构正成为湖仓部署的新标准。弹性扩展、资源隔离、成本优化,帮助企业在云上获得了更高的灵活性和效率。与此同时,云原生架构也为湖仓与 AI 的深度融合奠定了基础。在过去一年,湖仓技术与 AI 的结合催生了许多创新应用。从实时特征工程到大规模向量检索,从智能查询优化到自适应资源调度,湖仓架构正在和 AI 碰撞出更多新场景、新故事,StarRocks Summit Asia 2024 分论坛将带为你揭晓这些创新洞察和成熟实践。

2024-11-14 20:22:33 647

原创 StarRocks 在 Shopee 数据产品的实践

StarRocks 是一款 SQL 查询引擎,能够在数据湖仓上提供数据仓库级别的性能。StarRocks 是一款出色的分析引擎,具有强大的功能,例如向量化执行引擎、基于成本的优化器、数据缓存和具有透明查询重写能力的物化视图。除了其自管理的专有表格式外,它还支持直接查询大多数流行的数据湖表格式,如 Hive、Iceberg、Delta Lake 和 Hudi。借助其内置的目录功能,只需一个创建外部目录的 SQL 语句,即可立即部署 StarRocks 并查询数据湖表。

2024-11-07 17:25:31 1152

原创 Paimon x StarRocks 助力喜马拉雅构建实时湖仓

首先,简要介绍一下喜马拉雅的业务。我们的直播业务主要分为音频直播、视频直播以及多人娱乐厅三大类。音频直播:由专业主播为用户提供有声书、知识讲座等内容。视频直播:与市面上多数视频直播类似,包括主播表演和游戏直播等内容。多人娱乐厅:为用户提供一个互动交流的平台,他们可以与主持人共同参与讨论或活动。

2024-10-31 20:27:48 1051

原创 啊?原来社区大佬们是这样的人!

你们认识的社区大佬们都是怎样的?在社区里热心回答用户的问题、时常在各平台输出干货或是提 PR 的手速快的惊人?今天程序员节我们不聊代码,我们要来揭秘大佬们鲜为人知的一面,分享他们在生活中的那些隐藏技能:在高强度的工作下如何成为时间管理大师?如何狂减 90 斤,在短短一年间成为健身达人?他们是如何在开源社区里不断成长?与来自世界各地的开发者交流的时候又有哪些文化/语言上的趣事?在 AI 时代下,大佬们是如何保持高效学习的?

2024-10-25 18:17:05 404

原创 洞见数据未来,StarRocks Summit Asia 2024 即将启幕!

数据量和数据类型的需求飞速上涨,我们不仅需要将历史上各种基础设施中的数据进行分析使用,还要关注性能、灵活性、性价比,以及确保单一可信数据源。本届峰会,我们将深入探讨 "Data + AI" 时代下的极速统一架构—— Lakehouse 在各行业的应用与实践、云原生架构优势和更多创新应用场景,探索数据的无限可能。StarRocks 社区现诚挚地邀请在数据库技术、AI 领域内的企业机构、社区和媒体伙伴一起共建共创,推进数据与 AI 生态和行业交流和技术进步。在 AI 时代,我们需要怎样的数据基础软件?

2024-10-24 19:46:54 390

原创 StarRocks Lakehouse 快速入门——Hive Catalog

Apache Hive 是一个分布式、容错的数据仓库系统,能够实现大规模的分析。Hive Metastore (HMS) 提供了一个元数据存储库,可以轻松分析这些元数据以做出基于数据的决策,因此它是许多数据湖架构中的关键组件。Hive 构建于 Apache Hadoop 之上,并通过 HDFS 支持在 S3、ADLS、GS 等存储上的数据管理。Hive 允许用户使用 SQL 读取、写入和管理 PB 级的数据。

2024-10-17 17:45:57 885

原创 七猫如何用StarRocks 打造用户增长新引擎?

七猫的数仓团队主要是承接七猫各条业务线的离线数据开发、实时数据开发、指标建设、数据治理等工作。我加入七猫大约两年时间,加入后第一件事就是引入 StarRocks。现在七猫有五套 StarRocks 集群在生产环境投入了使用。据不完全统计,数据治理前离线数据加实时数据,总数据量大约在 20PB 左右。那我们是如何维护和管理这些数据的呢?下面会通过一张简化版的数据架构图来介绍。这些数据会通过日志埋点的形式上报到日志接收系统。日志接收系统会将用户行为数据和广告数据进行分流,分别存在两个 Kafka 里面。

2024-09-27 16:31:51 1215

原创 饿了么基于Flink+Paimon+StarRocks的实时湖仓探索

作者:王沛斌@饿了么本文整理自饿了么大数据架构师、Apache Flink Contributor 王沛斌老师在8月3日 Streaming Lakehouse Meetup Online(Paimon x StarRocks,共话实时湖仓架构)上的分享。主要分为以下三个内容:1. 饿了么实时数仓演进之路2. 实时湖仓方案选型与探索3. 实时湖仓规划及展望。

2024-09-26 18:00:34 1701 1

原创 StarRocks 培训课程重磅上线!专家出品,助你升级打怪不走弯路!

今年已过了大半,大家的学习进度条进展如何?如果你对 StarRocks 的基础知识还有疑惑,或在寻找系统性的学习方法,不必灰心,因为 Rocky 要来助你一臂之力啦!

2024-09-10 19:56:51 537 2

原创 StarRocks Lakehouse 快速入门——Apache Iceberg

Apache Iceberg 是一种为大规模、复杂数据集设计的开源表格式,这些数据集跨越了 PB 级别的数据。最初作为 Netflix 管理海量表的解决方案,于 2018 年在 Apache 孵化器下开源,并在 2020 年毕业。Apache Iceberg 作为一种复杂的开放表格式,位于计算引擎(如 Flink 和 Spark)和存储格式(如 ORC、Parquet 和 Avro)之间。它作为一个中间件层,抽象了底层数据存储格式的复杂性,并向计算框架上层提供了统一的表格语义。

2024-09-06 14:34:24 1622

原创 云原生主键模型:高效、弹性,省钱又省心

无论是大批导入或是小批实时导入,云原生主键索引性能与本地磁盘索引性能基本持平。在弹性调度场景中,得益于云原生的架构,云原生持久化索引的延迟性能提升达到了本地磁盘持久化索引的 10 倍。

2024-09-02 15:07:25 864

原创 StarRocks Lakehouse 快速入门——Apache Paimon

Apache Paimon (后简称 Paimon)起源于 Apache Flink (后简称 Flink)的一个子项目,起初它只是 Flink 内置的 Table Store 的一个格式,经过了几年的发展后,在 2024 年成功从 Apache 软件基金会(ASF)孵化器毕业,成为正式的顶级项目。Paimon 围绕具有 ACID 特性的数据湖存储构建,支持 DML 操作, 可以完整地支持批处理和流处理。它创新性地将 LSM Tree 与湖格式相结合,具有高效的实时更新能力与 compaction 效率。

2024-08-15 20:22:12 1342

原创 Pinterest:从 Druid 到 StarRocks,实现 6 倍成本效益比提升

Pinterest 是一个视觉发现平台,用户可以在上面找到食谱、家居和风格灵感等创意。该平台拥有超过5亿月活跃用户,为广告商提供了重要的广告机会。广告商可以利用数据来分析用户行为,以取得更优的广告表现。Partner Insights 是 Pinterest 提供给广告商的工具,允许他们通过定制的仪表板获取实时洞察。这些洞察帮助广告商了解广告策略的效果,并进行数据驱动的调整,提高广告投资回报率。

2024-08-09 17:03:19 845

原创 StarRocks on AWS Graviton3,实现 50% 以上性价比提升

基于 StarRocks 当前的优化情况和最新的测试数据来看,StarRocks on Graviton3 (C7g) 的总体性能比 Ice Lake 8375C (C6i) 实现了30%以上的综合性能提升。再结合 AWS Graviton3 自身的价格优势(C7g 相对于C6i 有 15% 的成本优化),StarRocks on C7g 相对于 C6i 可以实现 50% 以上的性价比提升。

2024-07-18 15:37:56 1102

原创 成本下降50%,腾讯音乐StarRocks存算分离大规模实践!

StarRocks 存算分离替换上千节点 Clickhouse 和 Druid 集群,效率不变,成本下降50%。

2024-07-12 18:45:36 1340

原创 数仓还是湖仓?专家圆桌深度解析

Apache Iceberg 代表:周劲松——Apache Amoro (incubating) PPMC 成员/腾讯云专家工程师(前网易平台开发专家)Apache Hudi 代表:徐昱——Apache Hudi & StarRocks Contributor/vivo 湖仓组件研发负责人Apache Paimon 代表:王日宇——StarRocks Committer/阿里云高级研发工程师。

2024-07-05 16:42:09 982

原创 StarRocks 3.3 重磅发布,Lakehouse 架构发展进入快车道!

在 Lakehouse 架构中,缓存设计是实现高效数据处理的关键一环。对于存算分离架构来说,缓存的重要性不言而喻。无论是 Hive、Iceberg、Paimon 等外表,还是 StarRocks 存算分离的内表,缓存命中率的高低直接影响性能的优劣。在缓存命中情况下,性能已经能够追平存算一体的架构,但如何合理、稳定地将热数据保存在缓存中却是一大挑战。StarRocks 原生开发的缓存功能为用户提供了开箱即用的便捷体验。无需复杂的配置,用户即可利用强大的缓存机制提升数据处理性能。

2024-07-03 20:04:13 1430

原创 极速查询:StarRocks 存算分离 Compaction 原理 & 调优指南

作者:丁凯,StarRocks TSC member/镜舟科技云原生技术负责人StarRocks 在数据摄入过程中,每次操作都会创建一个新的数据版本。在查询时,为了得到准确的结果,必须将所有版本合并。然而,随着历史数据版本的累积,需要合并的文件数量增多,这将显著降低查询效率。为了解决这个问题,StarRocks 会定期执行内部任务,通过合并历史数据版本来消除重复记录,这个过程被称为 Compaction。

2024-06-18 20:15:42 1884

原创 StarRocks x 腾讯视频:指标中台驱动湖仓一体建设实践

首先来介绍一下腾讯视频相关业务背景和技术背景。最后对指标中台以及湖仓一体进行一下总结和展望。我们未来会建立以指标为中心,定义、生产、消费、质量保障为一体的指标驱动式数据消费的新模式。在指标生产部分,提供标准化配置化的生产。指标消费部分提供一次定义,多处使用。指标质量部分提供全链路全面的可观测和诊断。指标运营部分降低成本,优化指标生产消费的流程,最终形成以指标驱动的数据消费新模式。

2024-06-17 15:08:48 1272

原创 StarRocks vs. Trino: 高并发性能背后的技术优势是什么?

Trino(之前称 PrestoSQL)项目最初由 Meta 开发,旨在让数据分析师能够在广泛的 Apache Hadoop 数据仓库上执行交互式查询。其高效处理大型数据集和复杂查询的能力,以及多数据源连接的灵活性,使其迅速成为大规模组织的首选数据分析工具。随着时间的推移,用户对数据分析的需求不断演变。移动互联网和 SaaS 应用的兴起,实时分析变得至关重要。因此,企业需要更高性能、更高并发、低延迟的数据分析引擎来满足不断增长的数据分析需求。在这种情况下,越来越多的用户开始寻找替代方案。

2024-06-11 16:52:22 1212

原创 Data Lakehouse:你的下一个数据仓库

Lakehouse 兼具数据仓库与数据湖的优势,是下一代数据分析架构的演进趋势;StarRocks 是构建 Lakehouse 的最佳选择,已在微信、小红书、携程、平安银行等数十个大型企业落地实践,帮助企业实现 One data、all analytics 的业务价值。更多交流,联系我们:https://wx.focussend.com/weComLink/mobileQrCodeLink/33412/8da64。

2024-05-29 14:46:06 1024

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除