[大数据]spark入门 in python(一)HelloWorld

这篇博客介绍了如何使用Python进行Spark入门,通过一个简单的Word Count程序展示了Spark的基本操作,包括创建RDD、转换和行动操作。文章还提到了Spark的组件如Spark SQL、Spark Streaming和MLlib,并说明了SparkContext的作用。最后,博主分享了编写独立Spark应用的步骤和注意事项。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

之前由于工作的需要玩了快一年的hadoop,做了一些数据分析的基础工作。

自然,hadoop用做离线分析还是完全满足需求的,无论是自己写mapreduce代码开发

又或者使用hive来便利分析,但是面对实时计算,就需要跟高一层级的框架了,storm,spark

就是对应的技术了,于是自己开始学习spark,作为半路出家的选手自然选用了python作为开发语言

下面就是自己的spark学习笔记了,主要参考书籍:Spark快速大数据分析


spark支持多种开发语言,scala,java,python等

scala,java都不熟,于是乎采用了python,一种:一种方法解决所有问题的语言。


一句话总结:spark是一个基于内存的大数据计算框架,

上层包括了:Spark SQL类似HiveQL, Spark Streaming 实时数据流计算,MLlib 机器学习算法包,GraphX 图算法包

底层 SparkCore 实现了基本功能:任务调度,内存管理,错误恢复,存储交互等,SparkCore还包含了对RDD(弹性分布式数据集)的API定义

RDD是Spark对计算任务封装,现在不懂也没关系,后面会随着实例进一步理解RDD


一、Spark安装:

单机版本spark安装相当简单,从官网下载一个源码包,解压即可。http://spark.apache.org/downloads.html

解压,把bin目录加入环境变量,pyspark即可启动python shell


单机模式启动pyspark后

一个简单的demo:

>>>lines = sc.textFile("1.txt") //创建一个RDD,“1.txt为本地存在的文件

&

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值