如何学习Pandas?

        今天我们接着上篇说一下pandas,首先来说一下什么是pandas。

      看到这个单词我们心中的第一个翻译就是国宝熊猫,但它跟熊猫是两个温泉不同的概念。 pandas是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。它给我们提供了大量的函数和方法,能使我们快速便捷地处理大量的数据,它还容纳了一些标准的数据模型和大量的库,提供高效快速处理数据集的工具。

      先在pycharm终端通过pip install pandas 安装pands,导入pandas,import pandas as pd,然后就能使用pandas了。

我们先来一些简单操作。

创建一个默认索引从0开始的Series

创建一个自定义索引的数组,索引由index指定,和前面数组依次对应

使用字典创建一个DataFrame,字典的Key会自动成为索引,一个Key默认对应一列数据

如果我们不定义索引,它就自己自动生成递增索引。

提取头两行,参数指定从开始读取多少行;提取结尾数据,参数指定从结尾开始读取多少行

生成从20180101开始的时间序列,默认增加单位是天

创建使用时间索引的Series,#取出从2018-01-01到2018-01-06的行数据

导入国外的一个电影网站数据,df_imdb = pd.read_csv('IMDB.csv'),json数据用pd.read_json,excel数据用pd.read_excel,一般情况什么格式数据read后面就接什么后缀。查看数据信息

获取到票房单位是百万

第一个纬度是行,第二维度是列,将50到56行(包含50行和56行自身)的导演和年份取出

将1到10行(不包含第10行),及2到3列(不包含第3列)取出,使用整数索引操作

统计Director列中不同导演出现的次数

将票房大于5亿美元的电影选出来,支持> < ==

将电影风格描述中含有Sci-Fi(科幻)关键字的找出,str将待处理列转换为字符串

将缺失数据(NaN)填充为0,也可以自己根据项目需求指定其他数据,将缺失数据的行移除(默认操作,可以使用axis=1指定删除列df_score.dropna(axis=1),0:按行,1:按列)

加载Excel文件

df_score = pd.read_excel('score.xlsx')

在DataFrame增加一列avg(平均值),计算当前DataFrame中每一行的平均值作为avg的数据,前后赋值数据的
行数要对应,axis=1表示按照行计算平均值,axis=0(默认值),表示按列计算

选出音乐、性别字段,按照性别分组,进一步计算各个分组的总和

将数学成绩大于80或化学成绩大于60的同学选出

使用lambda,配合apply方法将日期中的年份提取出来,apply函数会将lambda一次作用到数据集的每个元素


创建一个数据的副本,计算数学列的总和、平均值、最大值、方差,里面的字符串必须有同名函数

对新添加的avg(平均分分)按照降序进行排序,False:降序(由大到小),默认是升序(由小到大)

pandas的命令还有很多这些只是皮毛而已,想要了解更多,可以登录https://blog.youkuaiyun.com/liufang0001/article/details/77856255/博客,谢谢,再见!

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值