【pySpark教程】Introduction & 预备工作（一）

最新推荐文章于 2025-06-30 17:45:15 发布

原创最新推荐文章于 2025-06-30 17:45:15 发布 · 1.1w 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python #spark

PySpark-机器学习同时被 3 个专栏收录

10 篇文章

订阅专栏

【Spark-Python-机器学习】

6 篇文章

订阅专栏

【pySpark 教程】

2 篇文章

订阅专栏

本文详细介绍如何在Windows系统上安装配置Python Spark虚拟环境，包括所需硬件条件、软件包安装步骤及虚拟机的基本操作，适合初学者快速入门。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

windows 下安装 Python Spark 虚拟环境

本博客是【pySpark教程】系列的文章。

是 Berkeley 的Python Spark公开课的学习笔记(see 原课程)。

由于个人能力有限，不免有些错误，还望各位批评指正。

更多相关博客请猛戳：http://blog.youkuaiyun.com/cyh24/article/category/6092916

如需转载，请附上本文链接：http://blog.youkuaiyun.com/cyh_24/article/details/50644959

在本系列课程中，我们会学习如下内容：

Apache Spark 介绍
- Big Data, Hardware trends, and Spark
- Spark 要点
- 实验一：Spark 基础学习
Data Management
- Semi-Structed Data
- Structured Data
- 实验二：使用 Spark 分析网络服务器日志
数据分析与机器学习
- 数据处理
- 数据分析
- 机器学习
- 实验三：文本分析与实体解析
- 实验四：Spark 机器学习介绍

为了满足大家的需求，我们的软件开发环境是使用Virtual Machine（VM虚拟机）。你只需要按照两个软件包: VirtualBox and Vagrant，然后再下载安装制定的VM镜像就可了。本文将手把手指导你下载安装这些软件。

Note: 你所需要下载的所有东西不会超过1GB.

Hardware and Software Prerequisites

运行这些软件，你的机器需要达到最低配置。

MINIMUM HARDWARE REQUIREMENTS

Free disk space: 3.5 GB
RAM memory: 2.5 GB (4+ GB preferred)
Processor: Any recent Intel or AMD multicore processor should be sufficient.

SUPPORTED OPERATING SYSTEMS

64-bit (preferred) Windows 7 or later
64-bit (preferred) Mac OS X 10.9.5 or later
64-bit (preferred) Linux (CentOS 6 or later, or Ubuntu 14.04 or later)
32-bit Windows 7 or later
32-bit Linux (CentOS 6 or later, or Ubuntu 14.04 or later)

Installing the Required Software Packages

你需要安装以下两个软件包:

Oracle’s Virtual Box
Vagrant automatic VM configuration

这两个安装都是傻瓜式的，一般不会出问题。万一在安装Vagrant的时候出现了错误提示: Installation Directory must be on a local hard drive. 这其实是权限的问题，你只要用管理员权限去安装就行了。

镜像安装

首先创建一个文件夹（例如： c:\users\marco\myvagrant）
下载这个文件到刚刚的文件夹下，并解压。
从解压文件夹中，拷贝Vagrantfile到你创建的文件夹中。
打开命令行cmd，切换目录到你创建的文件夹下，执行命令：

vagrant up –provider=virtualbox

使用虚拟机的一些基本指令

启动一个VM，通过DOS 命令行指令：vagrant up
停止一个VM，通过如下命令：vagrant halt
如果你要删除VM，使用：vagrant destroy
一旦一个VM处于运行中，那么可以通过浏览器：”http://localhost:8001/” 来访问IPython notebook。

Running Your First Notebook

通过运行你的第一个notebook，来测试你的环境是否安装完整。

如果你还没有运行VM，那么先开一个，通过上述的命令
通过访问”http://localhost:8001” or “http://127.0.0.1:8001/” 来进入IPython notebook
在Jupyter网页中，选择上传按钮，上传之前下载的文件中的 “lab0_student.ipynb”，这是Spark iPython notebook file
点击查看即可。

此处输入图片的描述