
Spark专栏
文章平均质量分 94
根据个人理解,对Spark的基本概念、架构、使用场景、最佳实践以及高级主题进行阐述。侧重个人实操
Davina_yu
对Java,Python,数据库,大数据架构,数据分析,报表开发都有涉猎,欢迎技术沟通,付费咨询,接项目,接期末作业,毕业设计,以及帆软报表开发,QuickBI开发项目。 +V 15214301894
展开
-
centos7+三台虚拟机+jdk8 + mysql + hadoop + hive + sqoop搭建
centos7搭建+三台虚拟机搭建+jdk8 1.8.0_161安装 + mysql 5.7.38安装 + hadoop 3.2.2 集群搭建+ hive 3.1.2搭建 + sqoop1.4.7搭建原创 2022-07-14 11:11:48 · 1323 阅读 · 0 评论 -
Spark 安装与配置
在安装Apache Spark之前,需要确保满足以下前提条件。这些条件将帮助你顺利安装和配置Spark,并确保其正常运行。原创 2024-11-09 11:42:55 · 547 阅读 · 0 评论 -
Spark架构
Apache Spark 支持多种运行模式,每种模式都有其特定的使用场景和优势。原创 2024-11-09 11:41:39 · 629 阅读 · 0 评论 -
Spark 介绍
Apache Spark 是一个开源的分布式计算系统,专为大规模数据处理而设计。它最初由加州大学伯克利分校的AMPLab(Algorithms, Machines, and People Lab)开发,并于2010年开源。Spark 的设计初衷是为了克服 Hadoop MapReduce 在处理迭代算法和交互式查询时的局限性,特别是通过内存计算来提高数据处理的速度。原创 2024-11-08 15:03:48 · 821 阅读 · 0 评论 -
大数据概念
大数据是指数据集过于庞大或复杂,以至于传统的数据处理应用软件不足以有效地处理它们。大数据的特点通常被总结为“4VVolume(体量大)、Velocity(速度快)、Variety(多样性)、Veracity(真实性)。工具优点缺点Flume- 高可靠性和容错性- 简单的配置和易于扩展- 支持多种数据源和接收器- 主要适用于日志数据- 对于复杂的ETL操作支持有限Kafka- 高吞吐量和低延迟- 强大的持久性和容错性- 支持实时流处理- 配置和管理相对复杂。原创 2024-11-08 14:24:57 · 418 阅读 · 0 评论 -
Apache Spark 学习路径
什么是Apache Spark?Apache Spark是一个快速的、通用的大规模数据处理引擎。Spark的历史和发展起源于2009年的加州大学伯克利分校AMPLab项目。成为了Apache软件基金会的一个顶级项目。Spark的优势和应用场景内存计算,快速迭代。应用于批处理、交互式查询、流处理、机器学习等。Spark生态系统概览包括Spark Core, Spark SQL, Spark Streaming, MLlib, GraphX等。原创 2024-11-08 10:50:24 · 892 阅读 · 0 评论