Python数据分析之 Anaconda & Jupyter notebook的安装与使用
- Anaconda的安装与使用
1.为什么需要Anaconda?
已经安装了 Python,那么为什么还需要 Anaconda?有以下3个原因:
1)Anaconda 附带了一大批常用数据科学包,它附带了 conda、Python 和 150 多个科学包及其依赖项。因此你可以立即开始处理数据。
2)管理包
Anaconda 是在 conda(一个包管理器和环境管理器)上发展出来的。
在数据分析中,你会用到很多第三方的包,而conda(包管理器)可以很好的帮助你在计算机上安装和管理这些包,包括安装、卸载和更新包。
3)管理环境
为什么需要管理环境呢?
比如你在A项目中用了 Python 2,而新的项目B老大要求使用Python 3,而同时安装两个Python版本可能会造成许多混乱和错误。这时候 conda就可以帮助你为不同的项目建立不同的运行环境。
还有很多项目使用的包版本不同,比如不同的pandas版本,不可能同时安装两个 Numpy 版本,你要做的应该是,为每个 Numpy 版本创建一个环境,然后项目的对应环境中工作。这时候conda就可以帮你做到
2.如何安装Anaconda?
官网地址:https://www.continuum.io/downloads
Win10:

3.如何管理包
安装了 Anaconda 之后,就可以很方便的管理包了(安装,卸载,更新)。
按下图点击菜单栏,打开Anaconda Navigator

然后在Anaconda Navigator中按下图操作
1)列出已安装的包

2)安装或者更新包
下图中第5步,“apply”表示安装这个包,‘clear’表示删除已经安装的包。
如果没有“apply” 这个按钮,表示这个包已经安装过了。

3)如果遇到需要输入conda命令的,可以按下图打开conda的命令端,然后输入命令

按照上面的步骤你亲自操作一遍后,你已经学会了Anaconda,并安装好你的数据分析Pyhton环境了,接下来你就可以愉快的使用Jupyter notebook来做数据分析了
二、Jupyter notebook的安装与使用
1. Jupyter notebook是什么?
notebook 可以直接在代码旁写出叙述性文档,而不是另外编写单独的文档。也就是它可以能将代码、文档等这一切集中到一处,让用户一目了然。
Jupyter notebook(http://jupyter.org/) 是一种 Web 应用,能让用户将说明文本、数学方程、代码和可视化内容全部组合到一个易于共享的文档中。

Jupyter Notebook 已迅速成为数据分析,机器学习的必备工具。因为它可以让数据分析师集中精力向用户解释整个分析过程。
Jupyter这个名字是它要服务的三种语言的缩写:Julia,PYThon和R,这个名字与“木星(jupiter)”谐音。
2.如何启动 Jupyter notebook?
安装 Jupyter 的最简单方法是使用 Anaconda。该发行版附带了 Jupyter notebook。你能够在默认环境下使用 notebook。
按下图点击菜单栏,打开Anaconda Navigator

找到下图的jupyer notebook,点击红框的地方,就可以打开notebook了

启动notebook 服务器后,在浏览器中会自动打开notebook页面地址:http://localhost:8888
(其中localhost 表示你的计算机,而 8888 是服务器的默认端口
如果启动后遇到问题,参考这里的解决方案:
https://zhuanlan.zhihu.com/p/34337292
2)如何创建一个新的notebook?
像下面图片中一样,在右侧点击“New”(新建),创建新的 notebook、文本文件、文件夹或终端。
“Notebooks”下的列表显示了你已安装的内核,这里直接选择你电脑上默认的环境名即可(名称可以与下面图的不一样)。

默认的环境名在navigator中是 root,对应notebook里的默认环境名


这样你就打开了下面的页面,你会看到外框为绿色的一个小方框。它称为单元格。单元格是你编写和运行代码的地方。以后你就可以在这里写你的数据分析代码了。

在这里你可以输入自己人生中的第一行Python代码Hello world。然后点击图中的运行按钮,会执行你当前所在的代码,其实我更喜欢用快捷键(键盘上同时按住ctrl+enter键)来执行代码。

这句代码的意思是在界面输出字符串"Hello world!",所以你会看到在下面与输出结果出来。
运行代码单元格时,单元格下方会显示输出。单元格还会被编号(左侧会显示 In [1]:)。如果运行了多个单元格的话(也就是多块代码),这能让你知道运行的代码和运行顺序。

notebook 中的大部分工作均在代码单元格中完成。这是编写和执行代码的地方。在代码单元格中可以执行多种操作,例如编写代码、给变量赋值、导入包,展示数据分析结果等。在一个单元格中执行的任何代码在所有其他单元格中均可用。
+ 按钮用于创建新的单元格

2)重命名notebook
你会看到刚才我建的notebook文件名是下面这样默认的,我想修改成自己喜欢的文件名如何办呢?

点击“File”->Rename,可以对notebook文件进行重命名,这里我命名成‘Helloworld’



同时,你可以在当前运行notebook服务器的“notebook工作文件夹”下看到创建的notebook,文件名后缀是ipynb。
(其实Notebook 就是个扩展名为 .ipynb 的大型 JSON 文件。)

点击下面的保存按钮,可以保存你的notebook文件。但 notebook 也会定期自动保存。


3)重新运行所有单元格里的代码
4)关闭 notebook文件
通过在服务器主页上选中 notebook 旁边的复选框,然后点击“Shutdown”(关闭),你就可以关闭各个 notebook。
但是,在这样做之前,请确保你保存了工作!否则,在你上次保存后所做的任何更改都会丢失。同时如果不保存,你下次运行 notebook 时,你还需要重新运行代码。

5)如何共享你的notebook?
点击File->Download as,你可以选择多种格式下载你的notebook。一般我都会根据下面的用途来选择不同的下载格式:
1)如果我想和客户分享我的数据分析成果,我会选择将notebook下载为HTML文件。
2)如果我希望将自己的数据分析成果和代码嵌入到项目中,比如为药店管理系统做个数据分析子模块,我就会选择Python(.py)模块,这可以将我的代码融入项目中,成为子模块,方便和其他开发人员共同完成任务。
3)如果要在博客或文档中使用 notebook,我就选择Markdown格式。

6)关闭Jupler notebook服务器
直接关闭打开notebook的页面就可以。再次提醒,这会立即关闭所有运行中的 notebook,因此,请确保你保存了工作!
关闭notebook服务器后,下次启动再打开notebook,当你继续在该notebook中写代码时,发现之前的变量无法访问了。需要你在该notebook的Kernerl选项卡中选择“Run All”重新编译下之前的代码。

7)安装的包在notebook中不可使用的问题:
是因为安装包的时候,不在当前notebook所在的python环境下安装了包,所以在这个python环境下找不到包。解决办法如下:

