
Pandas数据处理
阳光下的米雪
在校研究生
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Pandas数据处理基础7---数据可视化及其用法
数据可视化 NumPy,Pandas,Matplotlib 构成了一个完善的数据分析生态圈,所以 3 个工具的兼容性也非常好,甚至共享了大量的接口。当我们的数据是以 DataFrame 格式呈现时,可以直接使用 Pandas 提供的 DataFrame.plot 方法调用 Matplotlib 接口绘制常见的图形。 例如,我们使用Pandas数据处理基础6中的插值后的数据 df_interpola...原创 2019-12-16 17:19:25 · 311 阅读 · 0 评论 -
Pandas数据处理基础6---插值填充及其用法
插值填充 插值是数值分析中一种方法。简而言之,就是借助于一个函数(线性或非线性),再根据已知数据去求解未知数据的值。插值在数据领域非常常见,它的好处在于,可以尽量去还原数据本身的样子。 我们可以通过 interpolate() 方法完成线性插值。当然,其他一些插值算法可以阅读官方文档了解。 # 生成一个 DataFrame df = pd.DataFrame({'A': [1.1, 2.2, np...原创 2019-12-16 17:13:29 · 7059 阅读 · 2 评论 -
Pandas数据处理基础5---数据填充分类及其用法
数据填充 既然提到了数据删减,反之则可能会遇到数据填充的情况。而对于一个给定的数据集而言,我们一般不会乱填数据,而更多的是对缺失值进行填充。 在真实的生产环境中,我们需要处理的数据文件往往没有想象中的那么美好。其中,很大几率会遇到的情况就是缺失值。缺失值主要是指数据丢失的现象,也就是数据集中的某一块数据不存在。除此之外、存在但明显不正确的数据也被归为缺失值一类。例如,在一个时间序列数据集中,某一段...原创 2019-12-16 16:57:35 · 2275 阅读 · 0 评论 -
Pandas 数据处理基础4---数据删减及其用法
数据删减 虽然我们可以通过数据选择方法从一个完整的数据集中拿到我们需要的数据,但有的时候直接删除不需要的数据更加简单直接。Pandas 中,以 .drop 开头的方法都与数据删减有关。 DataFrame.drop 可以直接去掉数据集中指定的列和行。一般在使用时,我们指定 labels 标签参数,然后再通过 axis 指定按列或按行删除即可。当然,你也可以通过索引参数删除数据,具体查看官方文档。 ...原创 2019-12-16 16:12:19 · 525 阅读 · 0 评论 -
Pandas数据处理基础2---数据读取、基本操作及其用法
数据读取 我们想要使用 Pandas 来分析数据,那么首先需要读取数据。大多数情况下,数据都来源于外部的数据文件或者数据库。Pandas 提供了一系列的方法来读取外部数据,非常全面。下面,我们以最常用的 CSV 数据文件为例进行介绍。 读取csv文件的方法是pandas.read_csv(),传入的参数是相对路径或者是网络URL df=pd.read_csv("https://labfile.os...原创 2019-12-16 15:41:59 · 312 阅读 · 0 评论 -
Pandas数据处理基础3---数据选择(基于索引数字的选择、基于标签名称选择)及其用法
数据选择 在数据预处理过程中,我们往往会对数据集进行切分,只将需要的某些行、列,或者数据块保留下来,输出到下一个流程中去。这也就是所谓的数据选择,或者数据索引。 基于索引数字的选择 当我们新建一个 DataFrame 之后,如果未自己指定行索引或者列对应的标签,那么 Pandas 会默认从 0 开始以数字的形式作为行索引,并以数据集的第一行作为列对应的标签。其实,这里的「列」也有数字索引,默认也是...原创 2019-12-16 15:43:29 · 437 阅读 · 1 评论 -
Pandas数据处理基础1---数据类型分类及其用法
介绍 Pandas 是非常著名的开源数据处理库,我们可以通过它完成对数据集进行快速读取、转换、过滤、分析等一系列操作。除此之外,Pandas 拥有强大的缺失数据处理与数据透视功能,可谓是数据预处理中的必备利器。 数据类型 Pandas 的数据类型主要有以下几种,它们分别是:Series(一维数组),DataFrame(二维数组),Panel(三维数组),Panel4D(四维数组),PanelND(...原创 2019-12-16 15:37:19 · 1910 阅读 · 0 评论