Python环境配置
一 、在Windows上安装Anaconda3[Windos]
-
在官网上下载 Anaconda 的安装文件
- Anaconda3-5.1.0-Windows-x86_64.exe
-
如果操作系统是 Win10 系统,请右键点击安装文件,选择以“管理员身份运行”(之前出现过在 Win10 上,未使用管理员权限安装导致后面 Scrapy 爬虫安装失败的情况)
-
以管理员身份运行
-
下一步
-
下一步
-
选择第二个,所有用户都可使用
-
可自定义Anaconda安装位置
-
将两个都勾上,自动添加环境变量
-
点击 Skip,不安装 VSCode。我们使用 PyCharm 作为发工具
-
安装完毕,测试,在CMD命令行输入python即可,输出Version即表示安装完成。
二、PyCharm 安装及工程配置[Windows]
- professional 表示专业版,community 是社区版,推荐安装社区版,因为是免费使用的。
1、当下载好以后,点击安装,记得修改安装路径,我这里放的是E盘,修改好以后,Next
2、接下来是
我们可以根据自己的电脑选择32位还是64位,目前应该基本都是64位系统吧
3、如下
点击Install,然后就是静静的等待安装了。
4、安装完成后添加Python解释器
三、Scrapy 爬虫框架安装配置[Windows]
直接在CMD命令行安装命令:conda install scrapy 然后选择y下载配置。
如果安装失败,可能的原因是 Scrapy 爬虫框架所依赖的 twisted 安装失败。
twisted 是用 Python 实现的基于事件驱动的网络引擎框架(从这里可以看出, 一个框架可以依赖于另一个框架),
但其安装形式比较特殊,须先下载源码,再在本地编译生成可执行文件后才能安装,
而如果本地无 VS 编译工具或 VS 的版 本低于编译要求就会导致 twisted 安装失败,进而即会使得 Scrapy 安装失败。
此时可以采用下载离线安装包的方式下载并安装 twisted(05-其他资料中提供 了),但要注意选择与操作系统版本相对应的安装文件。
安装 twisted 的方法: 命令行切到安装文件的位置,之后运行命令: pip install Twisted-18.9.0-cp36-cp36m-win_amd64.whl twisted
安装完成后再重新使用“pip install scrapy”命令安装 Scrapy 爬虫框架 就可以了。
最后配置Anaconda3安装目录下Scripts文件夹的PATH环境变量,不过一般安装Anaconda3时可以一键配置。
四、PySpark 集成环境搭建[Linux]
1、Anaconda 安装
1.使用 yum 安装 bzip2,缺少 bzip2 安装 Anaconda 会失败
yum install -y bzip2
2.安装 Anaconda3-5.1.0-Linux-x86_64
bash Anaconda3-5.1.0-Linux-x86_64.sh
进入之后主要是按照提示操作即可,比如回车,输入 yes,或输入 no 等。
此处回车,进入安装。
之后需要接受协议,输入 yes,然后在需要回车的地方进行回车安装。
注意,此处可以指定路径,也可以直接回车,直接回车就是安装在默认的/root/anaconda3 路径下。我们这里安装在/opt/install 下(该路径/opt/install 应提前创建,若该路径不存在,会安装在默认路径。)
安装完成后会提示是否自动添加环境变量,yes 即可。
是否安装 VSCode,这里是 linux,不需要。输入 no,安装结束。
安装 Anaconda 后会覆盖系统原有的 Python,可以通过修改.bashrc 使两个版本的 Python 共存。
vim /root/.bashrc
--------------------
export PATH="/opt/install/anaconda3/bin:$PATH"
alias pyana="/opt/install/anaconda3/bin/python"
alias python="/bin/python"
-------------------------------
#使环境变量生效
source /root/.bashrc
2、搭建 PySpark
1.生成 PySpark 配置文件
在当前用户文件夹下运行以下命令生成配置文件。
cd ~
jupyter notebook --generate-config
2.修改配置文件,允许从外部访问 Jupyter
vi ./.jupyter/jupyter_notebook_config.py
进入文件后对如下字段进行修改
c.NotebookApp.allow_root = True
c.NotebookApp.ip = '*'
c.NotebookApp.open_browser = False
c.NotebookApp.password = 'sha1:*****************'
c.NotebookApp.port = 7070
#定义notebook的工作目录
c.NotebookApp.notebook_dir = '/opt/install/notebook'
其中的 c.NotebookApp.password 属性的值需要在Anaconda 的 Python 中生成
使用 pyana(前面给 Anaconda 的 Python 起的别名),进入交互模式。运行以下代码。
from notebook.auth import passwd
passwd()
按照提示设置密码后会生成与之对应的加密密码,然后将这个生成的字符串赋值给 c.NotebookApp.password 属性。
3.修改环境变量
修改.bashrc 文件 vi /root/.bashrc
export PYSPARK_PYTHON=/opt/install/anaconda3/bin/python3
export PYSPARK_DRIVER_PYTHON=/opt/install/anaconda3/bin/jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
ipython_opts="notebook -pylab inline"
4.使环境变量生效并关闭防火墙
source /root/.bashrc
systemctl stop firewalld.service
systemctl disable firewalld
5.启动 PySpark
pyspark
6.启动效果