Spark学习——wordCount案例；

最新推荐文章于 2023-03-16 15:17:41 发布

ycy11370

最新推荐文章于 2023-03-16 15:17:41 发布

阅读量229

点赞数 1

CC 4.0 BY-SA版权

分类专栏：刷题；求职；基础；

本文链接：https://blog.youkuaiyun.com/ycy11370/article/details/92797181

刷题；求职；基础；专栏收录该内容

13 篇文章

订阅专栏

//加载文本文件,以换行符方式切割文本.Array(hello  world2,hello world2 ,...)

//单词统计1
$scala>val rdd1 = sc.textFile("/home/ycy/test.txt")
$scala>val rdd2 = rdd1.flatMap(line=>line.split(" "))
$scala>val rdd3 = rdd2.map(word = > (word,1))
$scala>val rdd4 = rdd3.reduceByKey(_ + _)
$scala>rdd4.collect

Spark最关键的一个问题就是RDD算子，就是可以简单地认为在计算过程中都是在对RDD算子进行计算；

上述代码用一句代码来完成：

$scala>sc.textFile("/home/ycy/hello.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).collect;

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ycy11370

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark-Word Count实例

Dead_morning的博客

05-03

1198

运行环境：Spark1.4集群语言:Scala一、简单实例演示1、文本内容：2、操作Step1. 读取hdfs 上文件：val wcrdd1=sc.textFile("hdfs://master:9000/wordcount/words.txt").cache Step2. flatMap 操作：将文本以空格形式切割val wcrdd2=wcrdd1.flatMap(_.split(" "))

大数据技术之Spark ——（二）Spark快速入门案例 WordCount

m0_46615073的博客

09-02

884

目录一、IDEA编写wordcount 1、本地环境准备【1】创建maven项目【2】添加scala开发框架支持【3】测试scala运行环境是否成功【4】添加spark依赖关系 2、编写wordcount 【1】准备本地测试文件【2】编写代码【3】运行结果： 3、依赖导入下载太慢解决二、Spark编写wordcount 一、IDEA编写wordcount 1、本地环境准备【1】创建maven项目开发前请保证 IDEA 开发工具中含有 Scala 开发插件.

参与评论您还未登录，请先登录后发表或查看评论

spark运行wordcount例子

10-31

本例子是让新手熟悉了解如果用idea开发程序，提交到spakr集群上读取hdfs数据这么一个流程。博客讲解链接：https://blog.youkuaiyun.com/cuicanxingchen123456/article/details/83573838

Spark—WordCount实例

晓风岚月

05-26

514

前提：启动Spark集群和Spark Shell 1.启动Spark集群 cd spark目录 sbin/start-all.sh 2.启动Spark Shell cd spark目录 bin/spark-shell --master spark://机器名:7077 --executor-memory 1024m --driver-memory 1024m 在WordCou...

Spark WordCount 案例

m0_72168501的博客

01-14

2020

Spark WordCount 案例

Spark之WordCount案例

qq_44403259的博客

03-12

388

在idea中完成wordcount程序编写、在windows本机和集群环境下分别运行 Windows本机运行 scala程序如下： object SparkWorldCount { def main(args: Array[String]): Unit = { //1、做出sc val conf = new SparkConf() conf.setMaster("local") conf.s...

Spark 的JavaWordCount分步详解

日常分享数据分析开发、编程语言内容

03-16

1306

Spark 的JavaWordCount分步详解

SparkStreaming入门+WordCount案例

zjfstart的博客

05-21

1217

SparkStreaming入门+WordCount案例1. Spark Streaming概述1.1 离线和实时的概念1.2 批量和流式的概念1.3 Spark Streaming是什么1.4 Spark Streaming特点1.5 Spark Streaming架构2. DStream入门2.1 WordCount案例实操2.2 WordCount解析2.3 注意事项 1. Spark Streaming概述 1.1 离线和实时的概念数据处理的延迟 1）离线计算就是在计算开始前已知所有输入数据，

yanqi_vip

04-12

264

一、算子综合案例wordcount-java ### --- WordCount - java ~~~ Spark提供了：Scala、Java、Python、R语言的API；对 Scala 和 Java 语言的支持最好； ### --- 源码地址说明 ~~~ 地址：https://spark.apache.org/docs/latest/rdd-programm...

yanqi_vip

04-12

285

一、算子综合应用案例：wordCount-scala ### --- WordCount - scala package cn.yanqi.sparkcore import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object ScalaWordCount { def...

【spark】spark word count例子

baibaiw5的博客

02-17

848

：代码 package com.test.mllib.test import org.apache.spark.SparkConf import org.apache.spark.SparkContext object WorkCountApp { def main(args: Array[String]) { var filename = "" args match

spark简单实例wordcount

是我的博客啊

05-23

441

计算流程：项目依赖pom.xml <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>3.0.1</version> </de

spark案例——wordcount

fengjian的博客

10-09

625

local本地模式添加pom依赖 <properties> <scala.version>2.12.0</scala.version> </properties> <dependencies> <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</arti

Spark运行WordCount例子

m0_46917254的博客

03-13

3710

Spark运行WordCount例子（python）一：前提因为我们是在yarn上运行Spark，所以要有这个环境。文件是从hdfs上读取的，所以hadoop集群要搭建好（单机即可，不需要全分布式）。下面演示是我在一台机器（master）上运行的。另外代码用的是Python语言，在jupyter notebook上运行。二：上传文件 1.查看本地文件： 2.把本地文件hello.txt上传到hdfs上。命令：hadoop fs -put hello.txt /class_data 3.在yar

Spark实战演练：WordCount实例

Evankaka的专栏

09-15

6191

摘要：本文主要讲了如何使用Spark来运行一个wordCount实例1、本地运行实例 package com.lin.wordcount import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ /** * 本地运行Spark *

Spark WordCount使用示例

12-07

1588

package com.sparktest import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} /** * 使用scala开发本地测试的Spark WordCount程序 */ object WordCount { def main(args: Array[String]

Spark案例之WordCount

qq_56870570的博客

10-13

6912

创建 Maven 项目增加 Scala 插件 Spark 由 Scala 语言开发的，所以本课件接下来的开发所使用的语言也为 Scala，咱们当前使用的 Spark 版本为 3.0.0，默认采用的 Scala 编译版本为 2.12，所以后续开发时。我们依然采用这个版本。开发前请保证 IDEA 开发工具中含有 Scala 开发插件增加依赖关系修改 Maven 项目中的 POM 文件，增加 Spark 框架的依赖关系。本次基于 Spark3.0 版本，使用时请注意对应版

用Spark实现word Count实例——入门大数据实例

Hi_KaiSa的博客

07-07

588

参考资料： https://blog.youkuaiyun.com/weixin_43893397/article/details/105289992 https://zhuanlan.zhihu.com/p/75779188 https://blog.youkuaiyun.com/u010675669/article/details/81744386 https://blog.youkuaiyun.com/weixin_43924642/article/details/89388432 首先将需要的input文件本地传至HDFS上（.

spark 第一个简单实例wordcount

a627082796的博客

02-21

1316

背景：因为是在已经搭好的Maven项目上进行开发，环境是集群环境，不需要再配置，只是讲一下写时遇到的坑。 1. 因为是采用idea开发，直接在maven项目上新建一个文件夹SparkWordCount和文件SparkWordCount.scala，利用maven打包后，spark-submit提交任务后，一直报错： 19/02/20 19:34:23 ERROR yarn.Applica...

基于Python语言的Spark实战——在PySpark中执行词频统计，实验感想