初识数据分析库pandas(一)

最新推荐文章于 2025-05-12 20:48:38 发布

echoy_189

最新推荐文章于 2025-05-12 20:48:38 发布

阅读量179

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_31405629/article/details/100102319

版权

640?wx_fmt=png

Spark推荐系统，干货，心得

点击上方蓝字关注～

目录：

1.Jupyter Notebook

1.1Jupyter Notebook 安装

1.2Jupyter Notebook 使用

1.3Jupyter Notebook 的快捷键

2. pandas

2.1 series

2.2DataFrame

2.3 pandas中的Index

3.pandas中的数据选取

3.1 一维

3.2 二维

1.1Jupyter Notebook 安装

JupyterNotebook是基于网页的用于交互计算的应用程序。其可被应用于全过程计算：开发、文档编写、运行代码和展示结果。

简而言之为web型python代码交互编辑器

安装JupyterNotebook的前提是需要安装了Python（3.3版本及以上，或2.7版本、建议安装python3.6 后面用Tensorflow方便）。

1）安装jupyter模块

pip installjupyter

2）创建一个文件夹，比如名字叫pandas，命令窗口进入该文件夹目录中，执行

jupyternotebook

1.2Jupyter Notebook 使用

如果想新建一个notebook，只需要点击 New，选择你希望启动的notebook 类型即可。

640?wx_fmt=png

640?wx_fmt=png

以[ ]开头。在这种类型的单元格中，可以输入任意代码并执行。例如，输入 777 + 88 并按

下 Shift +Enter。之后，单元格中的代码就会被计算，光标也会被移动动一个新的单元格中。

你会得到如下结果：

640?wx_fmt=png

1.3Jupyter Notebook 的快捷键

640?wx_fmt=png

2.pandans

pandas 是基于 NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas

纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas

提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使 Python

成为强大而高效的数据分析环境的重要因素之一。

Series：一维数组，与 Numpy 中的一维 array 类似。二者与 Python 基本的数据结构 List

也很相近，其区别是：List中的元素可以是不同的数据类型，而 Array 和 Series中则只允许

存储相同的数据类型，这样可以更有效的使用内存，提高运算效率。

DataFrame：二维的表格型数据结构。很多功能与 spark sql 中的 data.frame 类似。做过spark sql的同学不会陌生，也可以将DataFrame 理解为 Series 的容器

2.1 series

eg ：使用列表创建

640?wx_fmt=png

series 对象包装的是 numpy 中的一维数组，实际上是将一个一维数组与一个索引名称捆

绑在一起了。

pandas 中两个重要的属性 values 和 index，values:是 Series 对象的原始数据。index:对

应了 Series 对象的索引对象

eg：Series中两个重要的属性values 和index

640?wx_fmt=png

eg: Pandas也可以按照Numpy的索引值方式来取值

640?wx_fmt=png

eg: 创建Series时候，指定index对象

640?wx_fmt=png

同样也可以使用列表的方式指定index =》换成index = list("abcde")

eg:传入字典创建，默认将key作为index (默认按照value值排序)

640?wx_fmt=png

eg: Series对象可以按照字典的方式进行索引左闭右闭

640?wx_fmt=png

eg：如果既用了字典创建了Series对象，又显示的指定了index，如果key不存在，则值为NaN

640?wx_fmt=png

eg：将一个标量与index对象一起传入创建

640?wx_fmt=png

2.2 DataFrame

将两个series对象作为dict的value传入，就可以创建一个DataFrame对象

eg：创建DataFrame对象

640?wx_fmt=png

eg：查看DataFrame对象的values和index

640?wx_fmt=png

eg:像字典根据key获取值进行获取

640?wx_fmt=png

eg: 列表创建

640?wx_fmt=png

将bj，gz，sh，sy作为表头

eg：使用行索引index创建

640?wx_fmt=png

eg：使用列索引columns创建

640?wx_fmt=png

eg: 列表创建方式创建

640?wx_fmt=png

eg:传入一个二维数组指定columns和index创建

640?wx_fmt=png

2.3 pandas中的Index

eg：pandas中的index，其实是不可变的一维数组

640?wx_fmt=png

3.pandas中的数据选取

3.1 一维

eg : 一维的数据选取

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

如果索引与行名相同都是1，这时候就不知道是按照哪个来获取，索引获取时候使用loc、iloc

loc函数：通过行索引‘index’ 中的具体值来取行数据(如取"Index'为"A"的行)

iloc函数：通过行号来取行数据(如取第二行的数据) 行号从0开始，逐次加1

eg: loc与iloc

640?wx_fmt=png

3.2 二维

eg: loc与iloc获取

640?wx_fmt=png

640?wx_fmt=png

eg: loc与iloc获取'A'列所有行

640?wx_fmt=png

eg: loc与iloc获取部分行部分列

640?wx_fmt=png

640?wx_fmt=jpeg

推荐阅读：

spark协同过滤

Spark特征工程

Spark推荐系统

640?wx_fmt=jpeg

长按识别二维码关注我们

博客等级

码龄10年

43
原创

106
点赞

385
收藏

28
粉丝

关注

私信

热门文章

最新评论

机器学习|GBDT
优快云-Ada助手: 什么是有监督学习、无监督学习、半监督学习？
数据分析|参数估计
优快云-Ada助手: 百度的paddlepadle库做的不错，不知道是否用过呢？
一文搞懂知识蒸馏
帆仔菜菜: 个人觉得也许可以这么理解，作为学生（也就是Net-S）， 1. 不仅要自己学习怎么把题目做对（也就是自身的答案和ground-truth之间的分布差异，即Loss-hard）； 2. 还要学习老师是怎么做题的，汲取老师的知识（即学生学到的知识（Net-S的logits）和老师学到的知识（Net-S的logits）之间的Loss-soft）
一文搞懂知识蒸馏
帆仔菜菜: 这里作者的原话是“在经过了softmax转化后，基本也就变成和[1,0,0]无差异的一个结果了” 并不是说直接变成[1,0,0]，而是变成诸如[0.98,0.01,0.01]的一个结果，这样学到的并不是老师的知识（logits），而更偏向于在学习答案（ground-truth）
一文搞懂知识蒸馏
m0_58037034: “Net-S需要学习的两部分知识，分别对应了Net-S的输出和Net-T的分布差异Loss-soft和与GroundTruth的分布差异Loss-hard”请问这个是什么意思呀？

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。