头歌平台(EduCoder)——Pandas初体验

简介

Pandas是面向数据分析场景设计的Python开源软件工具包,其名字来自英文词组panel data,作为经济界的术语指多维结构化的数据集。从命名来看,Pandas特别适合处理序列数据、表格数据等具有良好结构的数据。在软件使用上,由于Pandsa是基于BSD开源软件许可证发布的,能够很方便地在学习、办公和工业应用等场合使用。

历史

Pandas是程序员Wes McKinney2008年在AQR资产管理公司工作时,为了满足分析师对金融数据量化分析所需的高性能和高灵活性工具软件需求而开发的。在Wes离开AQR公司前,他说服了公司的高管将这个工具集开源,也就有了现在Pandas社区如此好的发展。随后在2012年,另一位AQR雇员Chang She作为第二贡献者加入了Pandas的开发。截至20177月,Pandas的最新版本是0.20.0

特点

通过带有标签的列和索引,Pandas使我们可以以一种便于理解的方式来处理数据。它可以让我们毫不费力地从诸如csv类型的文件中导入数据,并使用类似数据库查询语言SQL的方式来访问数据。我们可以用 Pandas快速地对数据进行复杂的转换和过滤等操作。Pandas这方面表现是非常优秀的。具体有着如下特点:

  • 通过DataFrame对象的索引能力来管理复杂的表格数据;
  • 灵活的读取和写入文件的接口;
  • 数据对齐和强大的缺失数据处理;
  • 对数据集维度的重构和切分;
  • 强大的数据切片、索引和区域选取能力;
  • 二维表格数据中列的插入和删除;
  • 类似SQL语言Group by语法的数据分组、执行函数和合并结果的能力;
  • 合并数据集;
  • 层次化的索引技术来处理复杂高维数据;
  • 强大的时间序列处理能力,提供日期区间生成、频率计算、移动窗口统计、移动窗口线性回归和数据;
  • 为了提高执行效率,Pandas的核心代码是使用CythonC编写的。

实训概述

本实训项目的主要内容是使同学们掌握Pandas的基本用法,从而学会应用Pandas进行数据处理和分析。本实训从了解数据处理对象SeriesDataframe开始,讲授读取写入CSV数据,数据的基本操作和分析,数据的缺失处理,数据的层次化索引,共五个方面介绍Pandas操作的相关知识,并设置相对应的八个关卡考察大家对Pandas的掌握程度。

第1关:了解数据处理对象--Series

 第2关:了解数据处理对象-DataFrame

 第3关:读取CSV格式数据

 第4关:数据的基本操作——排序

第5关:数据的基本操作——删除

第6关:数据的基本操作——算术运算

第7关:数据的基本操作——去重 

第8关:层次化索引

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

带棒的小迷妹

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值