
spark
文章平均质量分 87
spark
不听话的小耳朵
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark streaming
流处理是一种处理连续数据流的技术,适用于实时数据分析、监控和报警等场景。Spark Streaming 是 Spark 生态系统中的一个模块,用于处理实时数据流。原创 2025-02-22 09:46:07 · 1019 阅读 · 0 评论 -
spark sql
Spark SQL 是 Spark 生态系统中的一个模块,用于处理结构化数据。它提供了 DataFrame 和 Dataset API,支持 SQL 查询、数据源集成和优化执行。原创 2025-02-22 09:28:27 · 636 阅读 · 0 评论 -
RDD介绍
RDD(Resilient Distributed Dataset)是 Spark 的核心数据结构,代表一个不可变、分区的元素集合,可以在集群中并行操作。通过以上内容,你可以深入理解 RDD 的核心概念和操作,并掌握如何在实际应用中使用 RDD 进行高效的数据处理。检查点将 RDD 持久化到可靠的存储系统(如 HDFS),用于切断 lineage 信息,减少恢复时间。RDD 支持两种类型的操作:转换操作(Transformations)和行动操作(Actions)。行动操作会触发实际计算并返回结果。原创 2025-02-22 08:46:38 · 544 阅读 · 0 评论 -
2.环境搭建
集群模式适合生产环境,支持 Standalone、YARN 和 Mesos 三种集群管理器。Spark Shell 是一个交互式的命令行工具,支持 Scala 和 Python。通过以上步骤,你可以成功搭建 Spark 环境,并运行 Spark 应用程序。本地模式是 Spark 最简单的安装方式,适合开发和测试。原创 2025-02-22 08:33:53 · 769 阅读 · 0 评论 -
什么是spark
Spark 简介Apache Spark 是一个开源的分布式计算系统,旨在处理大规模数据集的快速计算。它最初由加州大学伯克利分校的 AMPLab 开发,并于 2010 年开源。Spark 提供了一个高效、通用的计算框架,支持多种数据处理任务,包括批处理、流处理、机器学习和图计算。原创 2025-02-22 08:21:02 · 726 阅读 · 0 评论 -
spark学习大纲
希望这份大纲能帮助你系统地学习 Spark!原创 2025-02-22 08:12:27 · 633 阅读 · 0 评论