Apache Spark中国社区-优快云博客

转载参会指南｜Apache Spark Meetup · 上海站

此外，活动特别邀请来自阿里云、AMD、流利说的行业专家，分享实战场景下，高效、智能的数据处理解决方案。通过此次 Meetup，企业不仅能够全面了解 EMR Serverless Spark 的技术优势和应用场景，还能深入掌握其与 DataWorks 和 AMD 技术的协同价值，为企业在数据驱动的业务场景中构建高效、智能的数据平台提供重要参考与实践指导。无法来到现场的开发者也不用担心，本次 Meeup 提供线上直播，无论身处何地，都能实时参与，探索行业创新实践。将发送短信提醒，请按指引完成实名认证。

2025-12-19 16:20:40 18

转载活动报名 | Apache Spark Meetup · 上海站，助力企业构建高效数据平台

同时，DataWorks 高级技术专家也将亲临现场，详细解读其与 EMR Serverless Spark 的深度协同能力，为企业提供更高效、更智能的数据处理解决方案，以及如何结合 DataWorks 的多源数据高效入湖与智能化调度方案，实现从非结构化数据采集、存储、治理到分析应用的全生命周期管理闭环。此次夺冠不仅彰显了 EMR Serverless Spark 在超大规模数据处理场景中的卓越性能，更体现了其在极致性能与成本控制之间实现高效平衡的技术实力。点击“阅读全文”立即报名！阿里巴巴徐汇滨江园区。

2025-12-10 12:00:18 37

转载 Fusion 引擎赋能：七猫如何使用阿里云 EMR Serverless Spark 实现数仓加速

相比传统 Yarn 集群，Serverless Spark 不仅具备更强的弹性能力和更低的资源使用成本，通过 Fusion + Celeborn 的优化，更是实现了计算效率与资源性价比的双重提升。传统模式已无法支撑“按需响应、准时交付”的现代数据服务要求，并且原先基于实例级别的资源交付方式，在潮汐时存在浪费。通过接入 EMR Serverless Spark 官方提供的 spark-submit 工具进行数仓调度，该工具100%兼容开源 spark-submit 工具，为数仓的整体迁移提供了巨大的便利。

2025-12-05 18:47:12 23

转载云栖实录｜从“开源开放”走向“高效智能”：阿里云 EMR 年度重磅发布

更进一步，EMR Serverless Spark 凭借 Fusion 2.0 登顶 TPC-DS 100TB 世界榜单，相较 Databricks 2021 年纪录，性能提升 100%，性价比提升 500%，充分验证了其在超大规模数据湖分析中的领先优势。尤为突出的是，EMR Serverless StarRocks 凭借 Stella 内核登顶 TPC-H 10TB 世界性能榜单，相较第二名性能提升 111%，性价比提升 90%，数据加载效率提升 6200%。金融、零售、制造等众多行业的公有云客户。

2025-10-20 18:29:46 33

转载两项世界第一！阿里云登顶全球数据仓库性能及性价比排行榜

EMR Serverless Spark是一款面向Data+AI的高性能数据湖产品，内置最新升级的Fusion 2.0内核，可为企业提供任务开发、调试、调度和运维等一站式的数据平台服务，极大地简化了数据处理、即席分析和模型训推的全流程。TPC-H Benchmark同样是数据仓库领域权威测试标准之一，其主要考察系统处理查询的多方面能力，包括数据规模的大小、串行提交时的Query延迟、多租户并行提交时的Query吞吐等，是代表产品的综合性能的重要指标。

2025-09-30 17:30:25 62

转载云栖2025｜阿里云开源大数据发布新一代“湖流一体”数智平台及全栈技术升级

在AI融合领域，阿里云通过 Spark + DLF 全模态湖仓实现文本、音频、视频等多模态数据的统一治理与AI模型训练，而 Flink + Milvus + LLM 构建的实时智能分析决策系统，则支持舆情分析、直播监控等场景的毫秒级AI决策。在企业级治理能力方面，覆盖存储、计算、开发、安全多维度，事前、事中、事后等全方位治理能力；，在支持 Paimon、Iceberg 等主流湖表格式的基础上，将存储格式从传统结构化数据，拓展至全模态数据场景，支持面向 AI 场景的 Lance 文件数据、表格数据等全类型。

2025-09-29 12:00:25 105

转载阿里云携手海信聚好看构建开源云原生大数据平台最佳实践

在落地实践中，利用 Paimon 与开源 Spark、StarRocks 大数据生态技术栈开放融合的优势，借助 Serverless Spark 先进技术栈，通过 Spark Streaming 技术，快速实现了实时数据入湖的链路，用 Paimon 格式重构了 ODS 层存储机制，实现了亿级设备数据分钟级入湖，实时可查可用，极大提升了数据新鲜度。然而，现有大数据平台基于经典的 Lambda 架构构建，ETL 链路以批处理为主，数据更新时效普遍为小时级，严重制约了业务敏捷性与用户体验提升。

2025-09-22 18:31:11 160

转载 2025云栖大会·大数据AI参会攻略请查收！

技术分享及动手实践，覆盖大模型、AIGC、大数据 AI 一体、数据分析计算、数据开发治理、AI 搜索等多领域，期待与您在云栖小镇相聚，一同探索“阿里云智能集团计算平台事业部负责人汪军华，带来大数据 AI 平台年度发布，解读大数据 AI 平台各款产品的重大功能升级。9月24日下午 14:20-15:10。2025云栖大会·大数据AI。大数据 + AI 无限可能。议程已定，只等你来！

2025-09-18 18:00:55 173

转载 Community Over Code Asia 2025 专题介绍之 Data Storage & Computing

大数据也是 ASF 非常重要的组成部分，ASF 有非常多的大数据存储和计算领域的项目，比如大家熟知的 Apache Hadoop, Apache Spark, Apache HBase, Apache Ozone, Apache CarbonData, Apache Cassandra, Apache ZooKeeper 等等，在这个主题中，大家会学习到这些技术的前沿趋势和来自一线用户的实践经验、原理、架构分析等精彩内容。每个数据库来自不同的供应商，需要专门的技能集，并且具有独特的备份和故障恢复流程。

2025-07-16 18:00:21 200

转载阿里云 EMR Serverless Spark：面向 Data+AI 的高性能 Lakehouse 产品

摘要：本文整理自阿里云 EMR Serverless Spark 产品专家玄橙老师在用户钉群的直播分享。从业务痛点、产品定位、产品介绍以及客户案例四个部分详细介绍了 EMR Serverless Spark 产品。EMR Serverless Spark 用户钉群：58570004119EMR Serverless Spark 是一款面向 Data+AI 的高性能 Lakehouse 产品。它为企业提供了一站式的数据平台服务，包括任务开发、调试、调度和运维等，极大地简化了数据处理和模型训练的全流程。同时，它

2025-07-10 12:00:35 168

转载一体系数据平台的进化：基于阿里云 EMR Serverless Spark 的持续演进

其次，通过 Serverless Spark 构建了数仓经典分层架构，95%的数据源采用 DataWorks 数据集成的实时入湖（ODS），经过清洗转化为明细数据（DWD），然后根据主题将明细层数据轻度聚合（DWS），再根据特定应用或业务场景提供高质量的指标数据（ADS），为上层业务系统提供支持。在 ML/AI 应用方面，一体系通过 DataWorks 调度 Spark 任务，进行数据的计算和聚合，处理后的指标数据从数据湖推送到了 AI 知识库，推动了 Data + AI 技术在实际业务中的应用。

2025-06-10 08:00:23 164

转载 Fusion 引擎赋能：流利说如何用阿里云 Serverless Spark 实现数仓计算加速

数据存储阿里云 OSS ，提供高可靠、低成本的对象存储。该场景同样是在 Airflow 中调度提交任务到 EMR Serverless Spark，由于增量数据可能会有周期性变化，借助于 Serverless 的弹性伸缩能力，可显著提高资源利用率，避免资源浪费，相比于之前半托管集群的定时弹性伸缩更加稳定和流畅。流利说是领先的科技驱动的教育公司，公司自主研发了领先的英语口语评测、写作打分引擎和深度自适应学习系统，致力于为用户提供一整套系统性的英语学习解决方案，从听、说、读、写多个维度提升用户的英语水平。

2025-05-29 17:34:43 104

转载开源大数据平台 Data+AI 场景经典案例合集（文末有礼）

用友畅捷通基于 EMR StarRocks 搭建实时湖仓，通过其高性能查询、物化视图优化、流批一体能力，支撑实时大屏、BC 一体化报表及用户画像等场景，替代 ClickHouse 等分散方案后，解决了历史系统回写效率低、数据孤岛严重、技术架构分散等问题，解决了查询性能瓶颈，统一了技术栈，同时满足了业务实时数据分析需求。喜马拉雅大数据全面上云架构升级后，实现了秒级弹性伸缩，减少了数万张表，任务性能提升40%以上，即席查询性能提升30%以上，大幅提升了数据的时效性和开发效率。

2025-05-12 18:00:28 664

转载立马耀：通过阿里云 Serverless Spark 和 Milvus 构建高效向量检索系统，驱动个性化推荐业务

接着，使用Serverless Spark的计算能力，调用机器学习模型服务，将商品标题转换为向量表示。通过构建数据接口，Milvus中的数据可以对外提供查询服务，用户可以通过该接口输入一个商品或其特征，系统将返回相似商品的列表。它为企业提供了一站式的数据平台服务，包括任务开发、调试、调度和运维等，极大地简化了数据处理和模型训练的全流程。为了应对新的业务挑战，蝉妈妈选择与阿里云合作，利用其 Serverless Spark & Milvus，构建了符合业务场景和分析师习惯的工程解决方案。

2025-04-24 16:00:35 552

转载鹰角网络：EMR Serverless Spark 在《明日方舟》游戏业务的应用

在离线调度方面，我们实施了两种策略一种引擎，一是使用 Airflow 服务支持有代码基础的研发用户，同时为普通数据分析师和数仓研发提供了 DolphinScheduler 服务，这两种调度系统都实现了对 EMR Serverless Spark 的对接，满足平台服务的灵活性。数据也应用于算法团队进行业务探索与数据科学分析。通过这一系列技术栈的优化，我们不仅优化了数据管理和分析流程，还有效支持了公司的全球化战略和业务扩展，目前我们已经在海外基于 EMR Serverless Spark 搭建类似数据架构。

2025-04-15 12:00:16 224

转载百观科技基于阿里云 EMR 的数据湖实践分享

百观数据平台，主要面向数据工程师、数据分析师和数据科学家，其业务场景以数据的即席分析为主，以定时调度任务为辅，并提供简单易读的 OLAP 查询，覆盖数据接入、数据清洗、数据分析与聚合、数据交付全流程。在保留开箱即用的基础上，EMR 为用户提供了高度定制化的选项，除了内置软件的参数均可调整之外，对于有能力的用户，可以深入 EMR 集群的系统内部做更自由的开发，以满足复杂且多样的生产需求。百观以全域数据为基础，通过客观科学的数据分析，解锁数据价值，为客户提供具有现实指导意义的洞察和解决方案。

2025-04-02 08:00:44 143

转载最佳实践 | 在 Notebook 中使用 Python 第三方库

三种方式均能帮助您实现这一目标，建议根据实际情况选择最适合的方式。中填写库的名称及版本，不指定版本时，默认安装最新版本。(链接：https://x.sm.cn/6YT3CJ3)下拉列表中选择前一步骤创建的运行环境，单击。在编辑会话之前，您需要先停止会话。在编辑会话之前，您需要先停止会话。第三方库处理数据的场景，例如使用。单元格中，输入以下命令，然后单击。单元格中，输入以下命令，然后单击。页面，单击目标工作空间名称。页面，单击目标工作空间名称。在使用该方式时，需确保已安装。第三方库，其开源许可证请参见。

2025-03-20 08:03:04 140

转载最佳实践 | 在 EMR Serverless Spark 中实现 Doris 读写操作

01背景信息阿里云 EMR Serverless Spark 版是一款兼容开源 Spark 的高性能 Lakehouse 产品，提供了企业级全托管的数据平台服务。Apache Doris是一个高性能、实时的分析型数据库，能够较好地满足报表分析、即席查询、数据湖联邦查询加速等使用场景。更多信息，请参见Apache Doris 简介。（链接：https://x.sm.cn/FVRekM4）基于Apac...

2025-03-13 08:03:31 190

转载最佳实践 | 在 EMR Serverless Spark 中实现 StarRocks 读写操作

EMR Serverless Spark 是一款兼容开源 Spark 的高性能 Lakehouse 产品。它为用户提供任务开发、调试、发布、调度和运维等全方位的产品化服务，显著简化了大数据计算的工作流程，使用户能更专注于数据分析和价值提炼。StarRocks官方提供了Spark Connector用于Spark和StarRocks之间的数据读写，EMR Serverless Spark可以在开发时...

2025-03-06 19:00:24 231

原创美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台

作者：美的楼宇科技事业部先行研究中心智能技术部美的楼宇科技 IoT 数据平台建设背景美的楼宇科技事业部（以下简称楼宇科技）是美的集团旗下五大板块之一，产品覆盖多联机组、大型冷水机组、单元机、机房空调、扶梯、直梯、货梯以及楼宇自控软件和建筑弱电集成解决方案，远销海内外200多个国家。针对当前设备数据量庞大且持续增长、数据呈现半结构化特点的现状，现有系统仅停留在数据存储和基础使用层面，缺乏深度挖掘数...

2025-02-19 08:31:39 1119

原创阿里云 EMR Serverless Spark 在微财机器学习场景下的应用

作者：微财技术研发经理宋鑫微财介绍微财是一家创新型的金融科技企业，凭借多年积累的金融科技能力和数据处理优势，为客户提供消费分期等金融信息服务，致力于成为值得信赖的金融机构合作伙伴。旗下拥有好分期等品牌，为高成长用户提供信用分期借款过程中的综合性信息、技术以及辅助服务。业务挑战数据资源是金融科技企业的核心价值，微财依托大数据评估用户借款过程中的风险，随着微财业务的快速发展，积累了大量用户数据...

2025-01-20 08:30:15 754

转载阿里云 EMR 发布托管弹性伸缩功能，支持自动调整集群大小，最高降本60%

开源大数据平台 E-MapReduce（简称“EMR”）是云原生开源大数据平台，为客户提供简单易集成的 Hadoop、Hive、Spark、StarRocks、Flink、Presto 等开源大数据计算和存储引擎。EMR on ECS 是指 EMR 在 ECS 上运行的方式。EMR on ECS 将 EMR 的大数据处理功能与ECS的容器化部署优势相结合，使得您可以更加灵活地配置和管理 EMR 集...

2025-01-16 08:00:39 277

转载奇富科技基于 Celeborn 优化 Spark Shuffle 实践

引言：在大数据处理中，Shuffle 机制是计算组件的核心，负责将数据导向正确的处理节点，其设计直接影响任务执行效率和资源利用率。从 MapReduce 到 Spark，Shuffle 机制的进化不仅体现了大数据技术的进步，也凸显了优化 Shuffle 以应对大规模集群挑战的重要性。背景奇富科技的大数据平台每日处理超过数十万个离线任务（90%以上基于 Spark）和上万个 adhoc 查询，S...

2025-01-15 18:30:56 297

转载最佳实践 | 在 PySpark 程序中使用 Python 第三方库

PySpark 作业往往需要借助 Python 第三方库来增强数据处理和分析能力。本文详细介绍了如何利用 Conda 和 PEX 这两种方法，有效地将这些库集成到 Serverless Spark 环境中，确保作业在分布式计算场景下的稳定性和灵活性。01背景信息Conda 是一个跨平台的包管理和环境管理系统，它允许用户轻松创建、保存、加载和切换多个环境，每个环境都可以拥有独立的 Python 版本...

2025-01-09 08:03:25 259

原创 Celeborn Spark 集成最新进展

摘要：本文整理自阿里云基础平台开发冯明潇老师在11月15日 Apache Spark & Paimon Meetup，助力 Lakehouse 架构生产落地上的分享。本文从 Celeborn 的核心设计和关键机制等方面详细介绍了 Celeborn Spark 集成最新进展，解决了现有 Shuffle 局限性，显著提升了大数据引擎的性能、稳定性和灵活性。EMR Serverless Spar...

2025-01-02 08:30:43 1416

原创基于 Paimon x Spark 采集分析半结构化 JSON 的优化实践

摘要：本文整理自阿里巴巴 A+ 数据湖架构师康凯老师和 Paimon PMC Member 毕岩老师在11月15日 Apache Spark & Paimon Meetup，助力 Lakehouse 架构生产落地上的分享。文章介绍了阿里巴巴 A+ 业务基于 Variant 类型的 JSON 链路优化，并从技术原理层面深入剖析了 Variant 及 Paimon 在半/非结构化的演进。Ap...

2024-12-25 08:03:07 1410

转载最佳实践 | 在 EMR Serverless Spark 版中实现 MaxCompute 读写操作

背景信息阿里云 EMR Serverless Spark 版[1]是开源大数据平台 E-MapReduce 基于 Spark 提供的一款全托管、一站式的数据计算平台。它为用户提供任务开发、调试、发布、调度和运维等全方位的产品化服务，显著简化了大数据计算的工作流程，使用户能更专注于数据分析和价值提炼。大数据计算服务MaxCompute（原名ODPS）是一种快速、完全托管的EB级数据仓库解决方案，致力...

2024-12-19 08:00:51 292

转载 vivo 湖仓离线方向的落地实践

摘要：本文整理自vivo 互联网大数据专家、Apache Paimon Committer 徐昱老师在11月15日 Apache Spark & Paimon Meetup，助力 Lakehouse 架构生产落地上的分享。文章介绍了 vivo 互联网大数据团队基于 Spark + Paimon 进行湖仓架构选型及升级的历程。详细介绍了其基于归因/拉链表、物理删除、数据拼接、查询提速等增量...

2024-12-11 08:03:29 347

原创 Paimon x Spark：助力企业 Lakehouse 架构升级

摘要：本文整理自 Paimon Committer邹欣宇老师在11月15日 Apache Spark & Paimon Meetup，助力 Lakehouse 架构生产落地上的分享。文章介绍了 Paimon x Spark 的发展历程，企业搭建 Lakehouse 面临的挑战，Paimon 通过分层元数据架构支持 ACID 事务，主键表通过引入 LSM Tree 结构实现实时场景分钟级时...

2024-12-04 18:04:29 1459

转载 Paimon 流批一体存储演进

摘要：本文整理自 Paimon PMC Chair 李劲松老师在11月15日 Apache Spark & Paimon Meetup，助力 Lakehouse 架构生产落地上的分享。文章介绍了 Paimon 湖格式的演进过程，Paimon 的典型应用场景包括 Flink 流式入湖 + Spark 批查、基于 Flink+Spark+Paimon 构建 Lambda 架构等，还详细介绍了 ...

2024-11-29 12:01:05 789

转载通过 Jupyter Notebook 与 EMR Serverless Spark 进行交互的最佳实践分享

阿里云 EMR Serverless Spark 版是开源大数据平台 E-MapReduce 基于 Spark 提供的一款全托管、一站式的数据计算平台。它为用户提供任务开发、调试、发布、调度和运维等全方位的产品化服务，显著简化了大数据计算的工作流程，使用户能更专注于数据分析和价值提炼。Jupyter Notebook 是一个强大的交互式开发工具，您可以在 Web 界面中即时编写和执行代码，并实时查...

2024-11-20 18:01:33 192

转载倒计时1天！Apache Spark & Paimon Meetup · 北京站

????Apache Spark&PaimonMeetup，助力 Lakehouse 架构生产落地活动时间：2024年11月15日 13:30-17:30（本周五）活动地点：北京市朝阳区阿里中心-望京A座-05F报名地址：https://hd.aliyun.com/form/5276数据工程师、分析师、技术爱好者们注意啦！本周五13:30，我们将在北京举办一场Apache Spark ...

2024-11-14 08:30:30 78

转载通过 Apache Airflow 的 Livy Operator 自动化向 EMR Serverless Spark 提交任务

Apache Airflow是一个强大的工作流程自动化和调度工具，它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过Apache Airflow的Livy Operator实现自动化地向EMR Serverless Spark提交任务，以实现任务调度和执行的自动化，帮助您更有效地管理数据处理任...

2024-11-06 18:16:03 207

转载 Apache Spark & Paimon Meetup · 北京站，助力 LakeHouse 架构生产落地

活动介绍众所周知，LakeHouse 架构是当前大数据领域领先的技术架构之一。LakeHouse 由海外知名大数据公司 Databricks 提出，旨在融合数据湖的灵活性及成本效益与传统数据仓库的强大事务支持、高性能分析能力于一体，并且能够无缝集成机器学习等多种应用场景，为企业提供了更加全面的数据管理和分析平台。Apache Spark 作为近十几年来大数据领域最优秀的开源项目之一，提供了强大统一...

2024-11-04 18:00:27 103

转载 EMR Serverless Spark：一站式全托管湖仓分析利器

本文根据2024云栖大会实录整理而成，演讲信息如下：演讲人：李钰（绝顶） | 阿里云智能集团资深技术专家，阿里云 EMR 团队负责人活动：2024 云栖大会 -开源大数据专场01数据平台技术演变追溯数据处理软件及平台的演进历程，每一次大的架构升级与变迁都是由全球范围的新兴应用出现和落地触发的。具体来说，20世纪60-70年代数据库技术出现，数据库技术的普及和落地与个人计算机（PC）兴起的浪潮息息...

2024-10-31 11:17:59 186

转载通过 Apache Airflow 向 EMR Serverless Spark 提交任务

Apache Airflow是一个强大的工作流程自动化和调度工具，它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过Apache Airflow实现自动化地向EMR Serverless Spark提交任务，以实现作业调度和执行的自动化，帮助您更有效地管理数据处理任务。01前提条件已安装并启动...

2024-10-29 18:00:31 247

转载通过 EMR Serverless spark-submit 命令行工具进行 Spark 任务开发

摘要本文以 ECS 连接阿里云 EMR Serverless Spark 为例，介绍如何通过 EMR Serverless spark-submit 命令行工具进行 Spark 任务开发。前提条件已安装Java 1.8或以上版本。如果使用 RAM 用户（子账号）提交 Spark 任务，需要将 RAM 用户（子账号）添加至 Serverless Spark 的工作空间中，并授予开发者或开发者以上的角...

2024-10-22 18:30:32 223

转载通过 EMR Serverless Spark 提交 PySpark 流任务

在大数据快速发展的时代，流式处理技术对于实时数据分析至关重要。EMR Serverless Spark提供了一个强大而可扩展的平台，它不仅简化了实时数据处理流程，还免去了服务器管理的烦恼，提升了效率。本文将指导您使用EMR Serverless Spark提交PySpark流式任务，展示其在流处理方面的易用性和可运维性。前提条件已创建工作空间，详情请参见创建工作空间[1]。操作流程步骤一：创建实时...

2024-10-15 18:02:51 148

转载阿里云 EMR Serverless Spark 版正式开启商业化

阿里云 EMR Serverless Spark 版已于2024年9月14日正式商业化售卖，本文将简要介绍 EMR Serverless Spark 的产品优势、应用场景、支持地域，及计费模式等。EMR Serverless Spark 是一款云原生，专为大规模数据处理和分析而设计的全托管 Serverless 产品。该产品内置 Fusion Engine，100% 兼容开源 Spark 编程接口...

2024-09-21 10:01:57 260

转载【最后三天】参加 EMR Serverless Spark 产品评测，赢机械键盘、充电宝等礼品！

EMR Serverless Spark是一款云原生、专为大规模数据处理与分析而设计的全托管 Serverless Spark 计算产品。为企业提供了围绕Spark 任务的一站式开发、调试、调度以及运维等产品化服务，极大的简化了数据处理全生命周期的工作流程，使企业更加专注于数据的分析与价值提炼。现面向所有用户发出诚挚邀请，即日起至2024年7月18日，免费体验产品，并写下宝贵评测反馈，即有机会赢...

2024-07-15 18:30:30 148

空空如也

空空如也