spark 2.4.5 简单使用

最新推荐文章于 2023-07-18 11:03:25 发布

原创最新推荐文章于 2023-07-18 11:03:25 发布 · 607 阅读

0 ·

CC 4.0 BY-SA版权

spark 专栏收录该内容

33 篇文章

订阅专栏

本文介绍如何使用Spark的API对本地文本文件进行词频统计，通过代码示例展示了从读取文件到词频统计的全过程，并指出作业运行过程中涉及的Worker数量。

使用代码：

val file = spark.sparkContext.textFile("file:///home/iie4bu/data/hello.txt")
val wordCounts = file.flatMap(line => line.split(",")).map((word => (word,1))).reduceByKey(_ + _)
wordCounts.collect

可以看到有两个Worker在运行这个作业
在这里插入图片描述
这个Job：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

vincent_hahaha

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

阿里云上安装Spark2.4.5+Scala2.11.8

suzuyakeigo的博客

07-06

431

系统环境 Ubuntu16.0 安装版本 Spark2.4.5 Scala2.11.8 sbt1.3.0 安装步骤Scala安装Spark安装简单使用 Scala安装下载 wget https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz 解压 tar -zxvf scala-2.11.8.tgz mv scala-2.11.8 scala 配置环境变量 export SCALA_HOME=/home/hadoop/scala expor

Spark的安装和使用

LMO_august的博客

07-08

1211

Spark的安装和使用提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Spark的安装和使用前言一、安装Spark二、Spark Shell 中运行代码二、词频统计总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、安装Spark 跟之

参与评论您还未登录，请先登录后发表或查看评论

Spark-2.4.5搭建

m0_73905064的博客

07-18

410

【代码】Spark-2.4.5搭建。

spark-2.4.5.tgz

07-12

Linux下的spark安装包，Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。现在形成一个高速发展应用广泛的生态系统。可和scala2.13.2兼容

spark-2.4.5-bin-hadoop2.7.rar

03-12

spark-2.4.5-bin-hadoop2.7.rar

Spark-2.4.5官方文档说明-Ubuntu运行示例（二）

astra_zhao的专栏

03-18

450

运行Quick Start的Java和Python示例运行Python示例 Python示例的时候会报下面这个错，执行pyspark报错env: ‘python’: No such file or directory问题 https://blog.csdn.net/qq_42881421/article/details/88069211 运行下面的示例，如果使用spark-submit命...

快速入门（spark 2.4.5）

人month神话

05-07

559

文章目录安全使用Spark Shell的交互分析基础有关Dataset的更多操作缓存独立的应用程序从入门到放弃？本教程提供了使用Spark的快速介绍。我们将首先通过Spark的交互式shell（用Python或Scala）介绍API，然后展示如何用Java、Scala和Python编写应用程序。想要按照本指南学习，首先需要从Spark网站下载Spark的打包版本。因为我们不使用HDFS，所以您...

spark2.4.5安装集成hive

03-15

### Spark 2.4.5 安装与 Hive 集成教程 #### 准备工作在开始之前，需确认已安装好 Java、Scala 和 Hadoop 的运行环境。此外，还需要准备以下组件版本： - **Java**: 推荐 JDK 8 或更高版本。 - **Hadoop**: 版本应...

Spark大数据集群计算系统2.4.5版本发布

文件“spark-2.4.5-bin-hadoop2.6.tgz”是Spark发行版的一个压缩包，使用了.tar.gz格式，这是在类Unix系统中常见的文件压缩格式。它以.tar扩展名开始，这表示它是一个tar归档文件（即“tape archive”）。该文件经过...

Unrecognized option: - Error: Could not create the Java Virtual Machine. Error: A fatal exception has occurred. Program will exit. full log in /usr/local/software/spark-2.4.5/logs/spark-root-org.apache.spark.deploy.history.HistoryServer-1-master.out

最新发布

11-28

确保使用的 Java 版本与 Spark 2.4.5 兼容。Spark 2.4.5 通常支持 Java 8。可以通过以下命令检查 Java 版本： ```bash java -version ``` ### 示例代码检查启动脚本以下是一个简单的 Python 脚本示例，用于检查 `...

pyspark-2.4.5.rar

03-01

PySpark 是 Spark 为 Python 开发者提供的 API，位于 $SPARK_HOME/bin 目录，其依赖于 Py4J。随Spark 2.1.0发布的 Py4J位于 $SPARK_HOME/python/lib 目录，对应的版本是 0.10.4。pyspark.sql 模块pyspark.streaming 模块pyspark.ml 包pyspark.mllib 包

pyspark-2.4.4.tar.gz

11-04

来源：https://files.pythonhosted.org/packages/87/21/f05c186f4ddb01d15d0ddc36ef4b7e3cedbeb6412274a41f26b55a650ee5/pyspark-2.4.4.tar.gz ，外国官网下载太慢？来这里就对了！

【Ubuntu】spark2.4.5安装教程

rating_的博客

06-25

670

将spark2.4.5的压缩包解压到指定目录，并改名为spark： sudo tar -zxvf spark-2.4.5-bin-without-hadoop.tgz -C /home/china/data sudo mv spark-2.4.5-bin-without-hadoop/ spark 添加权限，并查看该目录下有没有spark的安装文件： sudo chown -R china:china spark ls | grep spark 在spark 目录下拷贝spark-env.sh.temp

CentOS8 安装 sprak2.4.5

05-09

1652

下载地址 http://spark.apache.org/downloads.html 下载文件spark-2.4.5-bin-without-hadoop-scala-2.12.tgz。scala版本是2.12的，不带hadoop的， [root@dev1 spark-2.4.5]# bin/spark-shell Using Scala version 2.12.10 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_192) 为了简单，可以下载s

spark-2.4.5-bin-2.6.0-cdh5.15.1环境搭建:Local模式和StandAlone

vincent_duan的专栏

03-26

701

下载源码进行编译在这一篇中，介绍了如何下载源码进行编译，编译好的文件名为spark-2.4.5-bin-2.6.0-cdh5.15.1 对文件进行解压：tar -xvf spark-2.4.5-bin-2.6.0-cdh5.15.1.tgz -C ~/app 配置环境变量修改.bashrc文件： # SPARK_HOME 2.4.5 SPARK_HOME=/home/iie4bu/app/sp...

spark2.4.5搭建过程

落幕7的博客

11-08

779

文章目录spark2.4.5搭建过程1、上传解压，配置环境变量配置bin目录2、修改配置文件 conf3、复制到其它节点4、在主节点执行启动命令 spark2.4.5搭建过程 1、上传解压，配置环境变量配置bin目录 #环境变量配置 vim /etc/profile #Spark export SPARK_HOME=/usr/local/soft/spark-2.4.5 export PATH=$PATH:$SPARK_HOME/bin #生效环境变量 source /etc/profile 2、

centos7上部署Spark 2.4.5集群

kamisamak的博客

05-19

272

集群规划节点名称 IP Zookeeper Master Worker node21 192.168.100.21 Zookeeper 主Master Worker node22 192.168.100.22 Zookeeper 备Master Worker node23 192.168.100.23 Zookeeper Wor...

Spark2.4.5集群安装与本地开发

chonywang的博客

05-15

1197

下载官网地址：https://www.apache.org/dyn/closer.lua/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz 验证Java是否安装 java -verisonJDK下载地址解压安装 tar -zxvf jdk-14.0.1_linux-x64_bin.tar.gz mv jdk-14.0.1 /usr/local/java验证Scala是否安装 scala -verison wget https://downloads.ligh

Spark 2.4.5版本集群安装（一）

是个好男人的博客

05-19

826

1.准备默认安装jdk1.8 export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.161-2.b14.el7.x86_64 服务器分配，2台机器: 192.168.14.44 node01 -- Master Worker 192.168.14.46 node02 -- Worker 2.Spark下载需要下载和Hadoop对应的版本，版本一定要选择好默认是使用scala2.11版本 http://spa..