spark从hdfs上读取文件运行wordcount

最新推荐文章于 2023-03-27 21:10:26 发布

原创最新推荐文章于 2023-03-27 21:10:26 发布 · 665 阅读

0 ·

CC 4.0 BY-SA版权

本文介绍了一个简单的Hadoop与Spark集群搭建过程，并通过一个WordCount实例展示了如何利用Spark读取HDFS上的文件并进行计算。

1.配置环境说明

Hadoop配置节点：sg202(namenode SecondaryNameNode) sg206(datanode) sg207(datanode) sg208(datanode)

Spark配置节点：sg201(Master) sg211(Worker)

2.从hdfs上读取文件并运行wordcount

a. 登录hadoop的主节点sg202 将要进行wordcount的文件上传到hdfs上

[html]view plaincopy 
   
 [root@sg202 hadoop-1.0.4]# hadoop fs -put /home/hadoop-1.0.4/README.txt  input  

b. 登录spark的Master节点(sg201)进入sparkshell

[html]view plaincopy 
   
 [root@sg201 spark-0.7.3]# MASTER=spark://172.16.48.201:7077 ./spark-shell  

c. 运行wordcount

[html]view plaincopy 
   
 scala> val file=sc.textFile("hdfs://172.16.48.202:9000/user/root/input/README.txt")  

[html]view plaincopy 
   
 scala> val count=file.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)  

[html]view plaincopy 
   
 scala> count.collect()  

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

robwang151

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Spark 之WordCount

congge_study的博客

04-10

7028

Spark 之WordCount

SparkStreaming通过nc -lk及读取本地文件进行Word Count

Mr_Bright的博客

12-21

452

maven依赖 <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> <scope>test</scope> </dependency> &l

参与评论您还未登录，请先登录后发表或查看评论

spark框架中wordcount的scala实现

05-18

scala语言和python一样都是交互式的语言，操作简单。这是wordcount的scala实现，简单明了，比java实现简单很多，希望对大家有所帮助

spark读hdfs文件实现wordcount并将结果存回hdfs

weixin_30396699的博客

02-09

274

package iie.udps.example.operator.spark; import scala.Tuple2; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; impo...

spark案例——wordcount

fengjian的博客

10-09

637

local本地模式添加pom依赖 <properties> <scala.version>2.12.0</scala.version> </properties> <dependencies> <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</arti

java spark读写hdfs_Spark学习笔记——读写HDFS

weixin_28952093的博客

02-24

1183

使用Spark读写HDFS中的parquet文件文件夹中的parquet文件build.sbt文件name := "spark-hbase"version := "1.0"scalaVersion := "2.11.8"libraryDependencies ++= Seq("org.apache.spark" %% "spark-core" % "2.1.0","mysql" % "mysql-...

spark streaming 的wordcount程序，从hdfs上读取文件中的内容并计数

nudt北极星的专栏

10-16

3469

首先说一下如何如何用spark-submit运行example中的NetworkWordCount 程序：自己新建一个scala文件命名为：NetworkWordCount ，包路径为com.pdl，然后将example中的NetworkWordCount中的内容拷贝到你新建的scala中，代码如下： object NetworkWordCount { def main(args:

spark shell读取hadoop hdfs上文本文件统计wordcount的方法

06-28

其中，`<namenode>`是Hadoop集群的名称节点，`<port>`是Hadoop集群的端口号，`<path-to-file>`是要读取的文件在HDFS上的路径。 3. 接下来，使用以下命令进行wordcount统计： ``` val wordCount = textFile.flatMap...

WordCount应用提交Spark——访问HDFS文件——Python提交与Scala+sbt打包提交

m0_57949886的博客

03-27

514

本文用来记录一下学习spark的过程，学习过程中一个个的定目标、解决bug还是挺有意思的。有不对的地方还请指出。

3.SparkStreaming-读取hdfs文件

qq_50166024的博客

12-05

645

package com.qf.sparkStreaming.day01 import org.apache.spark.SparkConf import org.apache.spark.streaming.dstream.DStream import org.apache.spark.streaming.{Seconds, StreamingContext} /** * 注意： * 该这个：context.textFileStream("hdfs://qianfeng01:8082/streami

Spark整合HDFS、WordCount示例

jvisualvm

04-27

243

原创转载请注明出处：http://agilestyle.iteye.com/blog/2294233 前提条件 Hadoop HA搭建完毕 Spark HA搭建完毕整合步骤 cd到spark的conf的目录，修改spark-env.sh 添加如下 export HADOOP_CONF_DIR=/home/hadoop/app/hadoop-2.6.4/et...

Spark学习笔记（2）—— Spark 和HDFS版 wordcount

一角残叶的博客

10-16

689

1 启动 HDFS [hadoop@node1 ~]$ start-dfs.sh Starting namenodes on [node1] node1: starting namenode, logging to /home/hadoop/apps/hadoop-2.7.6/logs/hadoop-hadoop-namenode-node1.out node4: starting datanod...

Spark读取本地文件和HDFS文件

SunnyRivers

01-09

1万+

前言旁边的实习生又一脸懵逼了：Spark有bug，明明我本地/data目录下有test.txt文件，但运行就报错: Caused by: java.io.FileNotFoundException: File file:/data/test.txt does not exist 我一看，原来小伙子使用spark集群模式来读取仅仅在他自己的客户端存放的一个文本文件如何读取本地文件 Spark ...

【Spark】Spark读取本地与hdfs文件

littlemichelle

05-24

1万+

https://zhuanlan.zhihu.com/p/26506724

Spark跨集群读取HDFS文件

一个数据小开发的博客

12-21

3333

大家平时可能都是在本集群上读取本地的HDFS文件，那如果我有两套集群呢？这个时候该如何读取另外一套集群上面的HDFS文件呢？废话不多说，直接上代码，如果代码有关于一些nameservices等这些信息不知道去哪里看的人，可以翻翻我之前的博客，或者私信我。

spark基础知识点

qq_43059899的博客

09-12

760

1 缓存及缓存级## 标题别缓存的方法有两个cache和persist缓存有两个方法cache和persist, 通过源码可以看出cache调用了persist, 所以这两个方法运行的效率可以看做是一样的在persist方法中需要传入StorageLevel这个对象 StorageLevel对象中可以指定缓存的数据存入到内存中, 磁盘中, 堆外缓存中, 是否关闭序列化, 以及副本数量存储级别的选择 MEMORY_ONLY > MEMORY_ONLY_SER > MEMORY_AND_

spark集群从HDFS中读取数据并计算