利用 Spark 进行集群计算:从基础到高级应用
1. Spark 简介
Spark 作为分布式程序的执行引擎,其主要优势在于支持内存计算。开发人员能使用 Java、Scala、Python 和 R 等多种语言快速编写 Spark 应用程序,这使得 Spark 成为大数据科学领域的代名词。以 Spark 为基础构建的多个库,像 Spark SQL、DataFrames、MLlib 和 GraphX 等,让习惯在本地使用这些工具进行计算的数据科学家能迅速适应集群环境。借助 Spark,开发人员得以在以往因规模或大小而无法用于机器学习的数据集上开发应用程序,许多文本语料库就属于这类数据集。
Spark 可在两种模式下运行:
- 客户端模式 :本地客户端以交互方式连接到集群,将作业发送到集群后等待作业完成并返回数据。这种模式适合对较小数据集和语料库进行动态分析,用户可使用 PySpark(类似于 Python 外壳的交互式解释器)或在 Jupyter 笔记本中与集群交互。
- 集群模式 :将作业提交到集群,集群独立进行计算,适合常规或长时间运行的作业。
2. 编写 Spark Python 程序
2.1 运行方式
可以使用 PySpark 或 spark-submit 命令在本地运行代码:
- 使用 PySpark :
$ pyspark
Python 3.6.3 (v3.6.3:2c5
超级会员免费看
订阅专栏 解锁全文
1048

被折叠的 条评论
为什么被折叠?



