Spark整合HDFS、WordCount示例

最新推荐文章于 2024-09-07 21:23:49 发布

原创最新推荐文章于 2024-09-07 21:23:49 发布 · 234 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#大数据

Spark 专栏收录该内容

5 篇文章

订阅专栏

本文介绍如何整合Hadoop HA与Spark HA集群，并通过具体步骤演示如何配置环境、启动服务及运行WordCount示例程序。

原创转载请注明出处：http://agilestyle.iteye.com/blog/2294233

前提条件

Hadoop HA搭建完毕

Spark HA搭建完毕

整合步骤

cd到spark的conf的目录，修改spark-env.sh

添加如下

export HADOOP_CONF_DIR=/home/hadoop/app/hadoop-2.6.4/etc/hadoop

保存退出，将spark-env.sh分发到其他两个节点

scp spark-env.sh hadoop-0000:/home/hadoop/app/spark-1.6.1-bin-hadoop2.6/conf
scp spark-env.sh hadoop-0001:/home/hadoop/app/spark-1.6.1-bin-hadoop2.6/conf

启动

首先启动Hadoop HA

http://hadoop-0000:50070 —— active

http://hadoop-0001:50070 —— standby

接着启动Spark HA（这里选择是hadoop-0002作为master）

http://hadoop-0002:8080 —— ALIVE

http://hadoop-0001:8080 —— STANDBY

执行spark-shell

spark-shell --master spark://hadoop-0002:7077

WordCount

为了运行WordCount，需要上传一个文件到HDFS

hadoop fs -put wordcount.txt /spark/wordcount

切回spark-shell，执行如下

val rdd = sc.textFile("hdfs://hadoop-0000:9000/spark/wordcount/wordcount.txt")

接着执行

rdd.flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).collect

这条语句等价于

rdd.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b).collect

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

哈天奇不奇

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

kafka +spark streaming 流计算wordcount实例实现

kyj3518861703的博客

05-24

641

一、Kafka简介 Broker Kafka集群包含一个或多个服务器，这种服务器被称为broker Topic 每条发布到Kafka集群的消息都有一个类别，这个类别被称为Topic。（物理上不同Topic的消息分开存储，逻辑上一个Topic的消息虽然保存于一个或多个broker上，但用户只需指定消息的Topic即可生产或消费数据而不必关心数据存于何处） Partition Partition是物理上的概念，每个Topic包含一个或多个Partition。 Producer 负责发布消息

spark spark整合HDFS

a3125504x的博客

07-27

650

spark整合HDFSSpark整合HDFS Spark整合HDFS spark整合HDFS之后，指定文件路径时，不再需要制定服务器名和端口号。直接以/开头即可访问根路径。在node01上修改配置文件 vim spark-env.sh export HADOOP_CONF_DIR=/install/hadoop-2.6.0-cdh5.14.2/etc/hadoop 分发到其他节点 sudo scp spark-env.sh node02:/install/spark/conf sudo s

参与评论您还未登录，请先登录后发表或查看评论

Spark Streaming整合HDFS与SQL

a805814077的博客

05-25

530

Spark Streaming整合HDFS与Spark SQL

Spark Standalone模式集成HDFS配置清单

11-03

Spark Standalone模式集成HDFS配置清单，教你如何配置spark和hdfs平台。由于Linux的防火墙限制，初学者嫌麻烦可以关闭防火墙。

跟天齐老师学Spark（4）--Spark整合hdfs

十光年的博客

02-06

713

spark整合hdfs：需求：从hdfs中读取数据，用spark计算，再写到hdfs中。启动zookeeper；启动hadoop的hdfs；然后启动spark（我们这里就不启动高可用集群了，这里只启动一个Master）；向spark集群提交任务； spark-shell中写的程序仅仅是做实验；实际开发中，是先在IDE中开发spark程序，然后打包，提交到集群。然后用

SparkStreaming读取Hdfs文件完成wordCount

鸭梨的博客

12-05

361

首先完成逻辑代码如下 import org.apache.spark.SparkConf import org.apache.spark.streaming.dstream.DStream import org.apache.spark.streaming.{Seconds, StreamingContext} object ReadHdfsFileDemo extends App { private val conf = new SparkConf().setAppName("test").setM

Spark Local环境WordCount示例及Maven项目导入

虽然文件名“spark.test”并未直接与知识点相关，但它可能是用于存放这个WordCount示例的项目名称或是一个测试文件。在开发实践中，项目名通常用以描述项目内容或用途，而以“test”结尾的文件名通常意味着是一个...

spark下实现wordcount

11-14

WordCount 是一个经典的示例程序，用于统计文本文件中每个单词出现的次数。本篇将详细介绍如何在 Spark 环境下实现 WordCount，并对相关配置文件进行解析。 #### 二、Spark WordCount 实现步骤 ##### 1. 配置 HDFS...

使用Hadoop和Scala实现的Spark Wordcount示例项目

它通常作为大数据技术入门的一个标准示例，用于演示如何使用Hadoop MapReduce框架（或者它的替代品如Spark）来处理大规模数据集。在MapReduce中，WordCount的实现分为两个主要步骤：Map阶段和Reduce阶段。在Map阶段...

Java实现Spark词配对Wordcount计数代码实现

05-24

在大数据处理领域，Apache Spark作为一个快速、通用且可扩展的计算框架，被广泛...这个简单的Wordcount示例只是Spark功能的冰山一角，Spark还支持更复杂的操作，如图计算、机器学习等，能够满足各种大数据处理需求。

Spark学习笔记（2）—— Spark 和HDFS版 wordcount

一角残叶的博客

10-16

569

1 启动 HDFS [hadoop@node1 ~]$ start-dfs.sh Starting namenodes on [node1] node1: starting namenode, logging to /home/hadoop/apps/hadoop-2.7.6/logs/hadoop-hadoop-namenode-node1.out node4: starting datanod...

spark读hdfs文件实现wordcount并将结果存回hdfs

weixin_30396699的博客

02-09

266

package iie.udps.example.operator.spark; import scala.Tuple2; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; impo...

spark实现wordcount的几种方式总结

陈小哥cw

07-09

1202

方法一：map + reduceByKey package com.cw.bigdata.spark.wordcount import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} /** * WordCount实现第一种方式:map + reduceByKey * * @author 陈小哥cw * @date 2020/7/9 9:59 */ object WordCount1

spark从hdfs上读取文件运行wordcount

robwang151的博客

09-05

649

1.配置环境说明 Hadoop配置节点：sg202(namenode SecondaryNameNode) sg206(datanode) sg207(datanode) sg208(datanode) Spark配置节点：sg201(Master) sg211(Worker) 2.从hdfs上读取文件并运行wordcount a. 登录hadoop的主节点sg202

Java大数据处理：Spark与Hadoop整合

技术研究中心

06-30

733

将这两者结合使用，可以充分发挥各自的优势，提供更加高效和灵活的大数据处理解决方案。通过整合Hadoop和Spark，可以实现高效的大数据处理系统。Hadoop提供可靠的分布式存储和容错机制，而Spark则提供快速的内存计算和灵活的数据处理能力。通过合理的架构设计和技术实现，可以充分发挥两者的优势，解决大数据处理中的各种挑战。监控和调整YARN的配置参数，如内存和CPU配额，以适应实际的工作负载和任务需求。Spark的优势在于其快速的内存计算和灵活的操作API，适合需要快速迭代和实时处理的任务。

Hadoop完全分布式+spark（python）