Spark 学习笔记

本文介绍如何安装配置Apache Spark并运行首个Python程序,通过分析Nginx日志中的HTTP响应码进行实战演示。文章涵盖安装步骤、调试环境搭建及作业提交流程,并解析了Spark的工作原理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 安装

    1. 从官网下载最新版本的发布。目前是1.1.0
    2. 安装Java和JDK。安装完成后可以使用java -version来测试是否安装成功。
    3. 在spark解压后的目录使用./sbt/sbt --assembly
  • Hello World
    第一个程序是分析Nginx日志,中的http response code。代码如下:

    from pyspark import SparkContext
    
    logFile = "20141010.log"
    
    sc = SparkContext("local", "Hello Spark")
    logData = sc.textFile(logFile).cache()
    
    counts = logData.map(lambda line: line.split()[8]).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)
    
    counts.saveAsTextFile("spark_results")
    
  • Debug Shell

    ./spark-1.1.0/bin/pyspark
    
  • Submit File

    ./bin/spark-submit  --master local[4]   SimpleApp.py
    
  • Notes

    1. Spark中的所有转换都是惰性的,只有发生一个要求返回结果给Driver的动作时,这些转换才会被执行。
  • 资源
    Spark官网
    优快云 Spark
    知乎精华答案
    Spark编程指南(Python)版

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值