最近接触了下spark,不说计算性能问题,记录下使用
1.
spark依赖于Hadoop,其文件主要可来自于hadoop提供的hdfs,然而apache官方提供预编译好的spark版本集成了hadoop,下载解压直接启动
2. /bin/pyspark
/bin/spark-shell(for scala)
/bin/spark-submit 三个主要的工具,其中介绍pyspark最多,但始终没能运行起来
|--- hostname 不对,改了计算机名 没改hosts里的设置
|--- 改了后master url不对,找不到
|--- 加了--master 显示connect failed.....
submit成功了
|--- ./spark-submit --master
spark://localhost:7077 app.py --class lyzApp --num-executors
2
但是设置core数目,appname都没用
3. 不知道pyspark之前是否要先启动master worker,启动后可在localhost:8080
/8081分别监视
future:可以尝试在cloud9上配置集群,提交计算,可能由于网速限制效果不好
## Spark Application - execute with spark-submit
## Imports
from pyspark import SparkConf, SparkContext
## Module Constants
APP_NAME = "My Spark Application"
## Closure Functions
## Main functionality
def main(sc):
pass
if __name__ == "__main__":
# Configure Spark
conf =
SparkConf().setAppName(APP_NAME)
conf =
conf.setMaster("local[*]")
sc =
SparkContext(conf=conf)
for i in
range(1,100000000):
for j
in range(1,10000000):
# print
'----------------------------------------------------------------------'
a = 12993.232+393/393.3-238
# Execute Main functionality
main(sc)
#./spark-submit --master local[*] test.py --class lyzApp
--num-executors 2