-
安装
- 从官网下载最新版本的发布。目前是1.1.0
- 安装Java和JDK。安装完成后可以使用java -version来测试是否安装成功。
- 在spark解压后的目录使用./sbt/sbt --assembly
-
Hello World
第一个程序是分析Nginx日志,中的http response code。代码如下:from pyspark import SparkContext logFile = "20141010.log" sc = SparkContext("local", "Hello Spark") logData = sc.textFile(logFile).cache() counts = logData.map(lambda line: line.split()[8]).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b) counts.saveAsTextFile("spark_results") -
Debug Shell
./spark-1.1.0/bin/pyspark -
Submit File
./bin/spark-submit --master local[4] SimpleApp.py -
Notes
- Spark中的所有转换都是惰性的,只有发生一个要求返回结果给Driver的动作时,这些转换才会被执行。
Spark 学习笔记
最新推荐文章于 2024-01-22 19:31:52 发布
579

被折叠的 条评论
为什么被折叠?



