数据分析
jupyter notebook
- 研究下,怎么在pycharm里面应用jupyter,因为如果在浏览器使用的话,需要的步骤挺多的
a. 需要在自己确定的一个文件夹里创建,所以需要cd 过去
b. jupyter notebook
c. 粘贴url
4. 再创建文件夹 - 还有一个原因,jupyter 自己不提示命令: pip install jupyter_contrib_nbextensions解决
- 运行需要shift+enter
但是仍然使用jupyter的原因如下:
一个博客原话:https://www.jianshu.com/p/4c3d98b3d556
A. Python的每一行都像是人类交流所用的文字一样,简单易懂且有交互性。但在一般的IDE中(如PyCharm),Python的这一交互功能被极大地限制,通常我们会将程序整段编写之后一起运行。
B. 而在Jupyter当中,我们可以每写几行或者每完成一个小的模块便运行一次。
C. 对于软件工程师们来说,这个功能并没有多大的吸引力;但是对身为机器学习工程师来说(机器学习和数据分析),分析和建模是非常碎片化的工作,而每一块的碎片又有着非常强的独立性,甚至可以说除了数据本身之外,每一块的代码之间并没有很强的关联性。数据分析和处理的过程往往是一个不断试验的过程,我们需要一次又一次的改变预处理的方式、尝试不同的特征工程处理、一遍又一遍的调整着模型参数’
D. 另一个博客:免受来换切换之苦
E. Jupyter 已经成为一个几乎支持所有语言,能够把软件代码、计算输出、解释文档、多媒体资源整合在一起的多功能科学运算平台。
F. 只要看一个文件,就可以获得项目的所有信息
G. 彻底云端化:不需要安装任何软件,直接在浏览器打开一份代码,就能在云端运行
H.
numpy
- NumPy系统是Python的一种开源的数值计算扩展
- 这种工具可用来存储和处理大型矩阵
- NumPy(Numeric Python)提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库。专为进行严格的数字处理而产生。
- 多为很多大型金融公司使用,以及核心的科学计算组织如:Lawrence Livermore,NASA用其处理一些本来使用C++,Fortran或Matlab等所做的任务。
总结:我只想说,我是用来找个工作糊口的,我没想过这么复杂
我想如果我走在这条路上,其越来越不明晰,但是我要有这个胆量,穿过去,也许能看到前面走的人,也许看不到,但是就走着吧。 - NumPy provides an N-dimensional array type, the ndarray, which describes a collection of “items” of the same type.
- 这是因为ndarray中的所有元素的类型都是相同的,而Python列表中的元素类型是任意的,所以ndarray在存储元素时内存可以连续,而python原生list就只能通过寻址方式找到下一个元素,这虽然也导致了在通用性能方面Numpy的ndarray不及Python原生list,但在科学计算中,Numpy的ndarray就可以省掉很多循环语句,代码使用方面比Python原生list简单的多。
pandas
- pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的
- Pandas是python的一个数据分析包
- Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。
- Python在数据处理和准备方面一直做得很好,但在数据分析和建模方面就没那么好了。Pandas帮助填补了这一空白,使您能够在Python中执行整个数据分析工作流程,而不必切换到更特定于领域的语言,如R。
- wait for a moment, I have decided to learn R yesterday, and I am going to.