spark集群从HDFS中读取数据并计算

本文档介绍了如何在已部署的Hadoop HDFS和Spark集群环境中,从HDFS读取数据并进行计算。首先,启动HDFS相关服务,包括Zookeeper、JournalNode和NameNode。接着,启动Spark集群,并通过Spark Shell读取HDFS上的文件,执行WordCount样例程序进行计算,最后将结果保存回HDFS。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、             利用spark从hadoop的hdfs中读取数据并计算

1.1准备阶段

部署好hadoop分布式搭建(+zookeeper,6台机器)可以参考这篇博客:http://blog.youkuaiyun.com/vinsuan1993/article/details/70155112

 

主机名

IP

安装的程序

运行的进程

Heres01

192.168.2.108

jdk、hadoop、zookeeper、spark

DataNode

JournalNode

Master

QuorumPeerMain

NodeManager

Heres02

192.168.2.99

jdk、hadoop、zookeeper、spark

DataNode

JournalNode

Worker QuorumPeerMain

NodeManager

Heres03

192.168.2.109

StringStringBufferStringBuilderJava 中用于处理字符串的三个类。 1. String 类: String 类是不可变的,即创建后不能被修改。每次对字符串进行修改都会创建一个新的字符串对象。例如: ``` String str = "Hello"; str += " World"; ``` 在上面的代码中,"Hello" 和 " World" 是两个不同的字符串对象,通过 `+=` 操作符连接后,会创建一个新的字符串对象 "Hello World"。 2. StringBuffer 类: StringBuffer 类是可变的,可以对字符串进行修改。它是线程安全的,适用于多线程环境下的字符串操作。例如: ``` StringBuffer sb = new StringBuffer("Hello"); sb.append(" World"); ``` 在上面的代码中,"Hello" 是一个 StringBuffer 对象,通过 `append()` 方法连接后,会直接对原对象进行修改,得到一个新的 StringBuffer 对象。 3. StringBuilder 类: StringBuilder 类也是可变的,可以对字符串进行修改。它与 StringBuffer 类相似,但不保证线程安全。适用于单线程环境下的字符串操作。例如: ``` StringBuilder sb = new StringBuilder("Hello"); sb.append(" World"); ``` 在上面的代码中,"Hello" 是一个 StringBuilder 对象,通过 `append()` 方法连接后,会直接对原对象进行修改,得到一个新的 StringBuilder 对象。 总结: - String 是不可变的,每次修改都会创建一个新的对象。 - StringBuffer 是线程安全的可变字符串,适用于多线程环境。 - StringBuilder 是非线程安全的可变字符串,适用于单线程环境。 在性能方面,StringBuilder 的性能通常优于 StringBuffer,因为不需要进行线程同步。但在多线程环境下,仍然推荐使用 StringBuffer
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值