[大数据]spark入门 in python（一）HelloWorld

最新推荐文章于 2025-02-07 21:45:28 发布

binsfan

最新推荐文章于 2025-02-07 21:45:28 发布

阅读量1.9w

点赞数 2

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/xnby/article/details/50782913

这篇博客介绍了如何使用Python进行Spark入门，通过一个简单的Word Count程序展示了Spark的基本操作，包括创建RDD、转换和行动操作。文章还提到了Spark的组件如Spark SQL、Spark Streaming和MLlib，并说明了SparkContext的作用。最后，博主分享了编写独立Spark应用的步骤和注意事项。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

之前由于工作的需要玩了快一年的hadoop，做了一些数据分析的基础工作。

自然，hadoop用做离线分析还是完全满足需求的，无论是自己写mapreduce代码开发

又或者使用hive来便利分析，但是面对实时计算，就需要跟高一层级的框架了，storm，spark

就是对应的技术了，于是自己开始学习spark，作为半路出家的选手自然选用了python作为开发语言

下面就是自己的spark学习笔记了，主要参考书籍：Spark快速大数据分析

spark支持多种开发语言，scala，java，python等

scala，java都不熟，于是乎采用了python，一种：一种方法解决所有问题的语言。

一句话总结：spark是一个基于内存的大数据计算框架，

上层包括了：Spark SQL类似HiveQL， Spark Streaming 实时数据流计算，MLlib 机器学习算法包，GraphX 图算法包

底层 SparkCore 实现了基本功能：任务调度，内存管理，错误恢复，存储交互等，SparkCore还包含了对RDD（弹性分布式数据集）的API定义

RDD是Spark对计算任务封装，现在不懂也没关系，后面会随着实例进一步理解RDD

一、Spark安装:

单机版本spark安装相当简单，从官网下载一个源码包，解压即可。http://spark.apache.org/downloads.html

解压，把bin目录加入环境变量，pyspark即可启动python shell

单机模式启动pyspark后

一个简单的demo：

>>>lines = sc.textFile("1.txt") //创建一个RDD，“1.txt为本地存在的文件

&

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄20年

37
原创

4
点赞

13
收藏

13
粉丝

关注

私信

热门文章

分类专栏

上一篇：: 互联网家装模式思考

下一篇：: [大数据]flume日志收集

最新评论

聪明的投资者第一章
林震南: 好在自己用在炒股的资金比例还是ok的，25%左右。其余的都是基金。但是基金全部是股票指数。你这还不算是安全，股票指数依然是股票啊，不是等同现金的债券之类的。
[大数据]spark入门 in python（一）HelloWorld
curious_girl: 你好!python + spark 有没有推荐的视频网站，或者您是怎么学习的？我看网上java和scale的资源多一些，，但是还是想用python
[大数据]spark入门 in python（一）HelloWorld
yoona666 回复普通网友: 还要密码
flume之集群监控 Ganglia 部署配置
ty_laurel 回复 binsfan: 嗯，可以监控了，但是当我使用KafkaChannel时，gmond可以收到数据，但是gmetad服务就会挂掉，报错*** buffer overflow detected ***: gmetad terminated，请问您有遇到这种情况吗？flume配置成其他方式都没有问题，只要使用kafkachannel就会出现这个问题。谢谢
flume之集群监控 Ganglia 部署配置
ty_laurel: 嗯，可以监控了，但是当我使用KafkaChannel时，gmond可以收到数据，但是gmetad服务就会挂掉，报错*** buffer overflow detected ***: gmetad terminated，请问您有遇到这种情况吗？flume配置成其他方式都没有问题，只要使用kafkachannel就会出现这个问题。谢谢

大家在看

最新文章

目录

展开全部

收起

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。