Spark 学习笔记01

Apache Spark是大规模数据处理的统一分析引擎,具有速度快、使用方便、通用性强、可在多环境运行等特点。核心是RDD,本文介绍了spark本地导入文本及RDD操作示例,包含官网入门案例、统计单词次数、spark sql、spark streaming和hive案例等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Apache Spark™是用于大规模数据处理的统一分析引擎。

  • 速度快
    运行工作负载的速度提高了100倍。

Apache Spark使用最新的DAG调度程序,查询优化器和物理执行引擎,为批处理数据和流数据提供了高性能。

  • 使用方便
    使用Java,Scala,Python,R和SQL快速编写应用程序。

Spark提供了80多个高级运算符,可轻松构建并行应用程序。您可以 从Scala,Python,R和SQL Shell交互地使用它。

  • Generality(通用性)
    Combine SQL, streaming, and complex analytics.

Spark powers a stack of libraries including SQL and DataFrames, MLlib for machine learning, GraphX, and Spark Streaming. You can combine these libraries seamlessly in the same application.

Runs Everywhere
Spark runs on Hadoop, Apache Mesos, Kubernetes, standalone, or in the cloud. It can access diverse data sources.

You can run Spark using its standalone cluster mode, on EC2, on Hadoop YARN, on Mesos, or on Kubernetes. Access data in HDFS, Alluxio, Apache Cassandra, Apache HBase, Apache Hive, and hundreds of other data sources.

spark core is RDD spark 的核心就是RDD(弹性分布式数据集)
具体可以去官网看看是怎么讲的rdd-programming-guide

spark 本地导入文本,RDD操作示例

下载Anaconda,从开始菜单,打开从开Anaconda Prompt,输入命令
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark 安装好pyspark
始菜单找到Jupter NoteBook 打开就能用了

官网入门案例

官网快速入门案例
在这里插入图片描述
在这里插入图片描述
统计单词最多的行

from pyspark.sql.functions import *
>>> textFile.select(size(split(textFile.value, "\s+")).name("numWords")).agg(max(col("numWords"))).collect()

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

spark01统计文本中单词的出现次数

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

spark sql案例

在这里插入图片描述

spark streaming 案例

在这里插入图片描述

hive 案例

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值