spark初尝试_codestorm_新浪博客

codestorm04

于 2016-01-29 17:05:09 发布

阅读量117

点赞数

CC 4.0 BY-SA版权

分类专栏： Softwares 文章标签：大数据 spark hadoop java apache

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_43996899/article/details/91986389

Softwares 专栏收录该内容

17 篇文章

订阅专栏

本文详细记录了初次接触Spark的体验，从依赖Hadoop、使用Spark提供的工具开始，遇到并解决了hostname设置、masterurl配置等问题。介绍了如何通过spark-submit命令进行应用提交，并探讨了在云环境中配置集群进行计算的可能性。通过实际操作展示了Spark应用的基本流程，包括配置Spark环境、启动应用并执行任务。同时，还指出了在不同网络环境下进行计算时可能遇到的挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近接触了下spark，不说计算性能问题，记录下使用

1. spark依赖于Hadoop，其文件主要可来自于hadoop提供的hdfs，然而apache官方提供预编译好的spark版本集成了hadoop，下载解压直接启动

2. /bin/pyspark /bin/spark-shell(for scala) /bin/spark-submit 三个主要的工具，其中介绍pyspark最多，但始终没能运行起来

|--- hostname 不对，改了计算机名没改hosts里的设置

|--- 改了后master url不对，找不到

|--- 加了--master 显示connect failed.....

submit成功了

|--- ./spark-submit --master spark://localhost:7077 app.py --class lyzApp --num-executors 2

但是设置core数目，appname都没用

3. 不知道pyspark之前是否要先启动master worker，启动后可在localhost:8080 /8081分别监视

future：可以尝试在cloud9上配置集群，提交计算，可能由于网速限制效果不好

## Spark Application - execute with spark-submit

## Imports

from pyspark import SparkConf, SparkContext

## Module Constants

APP_NAME = "My Spark Application"

## Closure Functions

## Main functionality

def main(sc):

pass

if __name__ == "__main__":

# Configure Spark

conf = SparkConf().setAppName(APP_NAME)

conf = conf.setMaster("local[*]")

sc = SparkContext(conf=conf)

for i in range(1,100000000):

for j in range(1,10000000):

# print '----------------------------------------------------------------------'

a = 12993.232+393/393.3-238

# Execute Main functionality

main(sc)

#./spark-submit --master local[*] test.py --class lyzApp --num-executors 2

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。