
pandas
Shingle_
Done is better than perfect.
展开
-
pandas基础运算
《Python for Data Analysis》算术运算和数据对齐pandas可以对不同索引的对象进行算术运算。例如:当对象相加时,如果存在不同的索引对,其结果的索引就是该索引对的并集。自动的数据对齐操作在不重叠的索引处引入了NA值。并且会在算术运算中传播。In [1]: import numpy as npIn [2]: import pandas as ...原创 2017-05-09 16:19:51 · 2291 阅读 · 0 评论 -
pandas时间序列频率处理
《Python for Data Analysis》生成日期范围pd.data_range()In [15]: rng = pd.date_range('2000-01-01', '2000-06-30', freq='BM')In [16]: rngOut[16]:DatetimeIndex(['2000-01-31', '2000-02-29', '2000...原创 2017-10-15 00:34:57 · 5171 阅读 · 0 评论 -
绘图和可视化(pandas)
《Python for Data Analysis》pandas中的绘图函数pandas有许多能够利用DataFrame对象数据组织特点来创建标准图表的高级绘图方法。线形图import pandas as pd import numpy as np%matplotlib inlines = pd.Series(np.random.randn(10).cumsum(), index=np.ar原创 2017-10-19 00:09:31 · 3450 阅读 · 0 评论 -
pandas数据分组和聚合操作
《Python for Data Analysis》GroupBy分组运算:split-apply-combine(拆分-应用-合并)DataFrame可以在其行(axis=0)或列(axis=1)上进行分组。然后,将一个函数应用到各个分组并产生新值。最后,所有这些函数的执行结果会被合并到最终的结果对象中去。GroupBy的size方法可以返回一个含有分组大小的Seri...原创 2017-05-24 15:53:53 · 6468 阅读 · 0 评论 -
pandas处理缺失数据
《Python for Data Analysis》NA处理方法 方法 说明 dropna 根据各标签的值中是否存在缺失数据对轴标签进行过滤,可通过阈值调节对缺失值得容忍度 fillna 用指定值或插值方法(如ffill和bfill)填充缺失数据 isnull 返回一个含有布尔值的对象,这些布尔值表示哪些值是缺失值NA,该对象的...原创 2017-05-09 16:30:17 · 13725 阅读 · 0 评论 -
pandas排序与统计
《Python for Data Analysis》排序sort_index()对行或列索引进行排序In [1]: import pandas as pdIn [2]: from pandas import DataFrame, SeriesIn [3]: obj = Series(range(4), index=['d','a','b','c'])...原创 2017-05-09 16:27:02 · 16648 阅读 · 0 评论 -
pandas函数应用
《Python for Data Analysis》函数应用和映射将函数应用到各列或行所形成的一维数组上 apply方法In [18]: df1Out[18]: a b c d0 0 1 2 31 4 5 6 72 8 9 10 11In [19]: f = lambda x : x.max() - x.m...原创 2017-05-09 16:21:54 · 1213 阅读 · 0 评论 -
pandas索引对象
《Python for Data Analysis》索引对象Index对象是不可修改的(immutable),这样才能使Index对象在多个数据结构之间安全共享。In [1]: import pandas as pdIn [2]: from pandas import Series, DataFrameIn [3]: import numpy as npIn...原创 2017-05-09 16:07:46 · 2038 阅读 · 0 评论 -
pandas入门
《Python for Data Analysis》from pandas import Series, DataFrameimport pandas as pdSeries由一组数据以及与之相关的数据标签,Series的字符串表现形式为:索引在左边,值在右边。如果没有指定索引,会自动创建一个0到N-1的整数型索引。属性: .values 和 .index...原创 2017-05-09 15:34:03 · 499 阅读 · 0 评论 -
pandas字符串函数
《Python Data Analysis》pandas中矢量化的字符串函数问题: 通过Series的map函数,所有字符串和正则表达式方法都能被应用于各个值(传入lambda表达式或其他函数),但是如果存在NA就会报错。解决: Series有一些能够跳过NA值得字符串操作方法,通过Series的str属性可以访问这些方法。矢量化的字符串方法: 方法 说明 cat 实现元素级的字符串原创 2017-05-22 21:05:58 · 8583 阅读 · 0 评论 -
pandas数据重塑
《Python for Data Analysis》数据重塑重塑层次化索引stack: 将数据的列“旋转”为行unstack : 将数据的行“旋转”为列旋转pivot:前两个参数值分别用作行和列索引的列名,最后一个参数则是用于填充DataFrame的数据列的列名。如果忽略最后一个参数,得到的DataFrame就会带有层次化的列。相当于用set_i...原创 2017-05-22 20:22:20 · 1367 阅读 · 0 评论 -
pandas数据加载与合并
《Python for Data Analysis》数据加载read_csv从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为逗号read_table从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为制表符(“\t”)pd.read_csv('ex1.csv')等价于pd.read_table('ex1.csv', sep=',')...原创 2017-05-22 20:21:10 · 658 阅读 · 0 评论 -
pandas时间序列
《Python for Data Analysis》日期和时间数据类型及工具Python datatime模块In [2]: from datetime import datetimeIn [3]: now = datetime.now()In [4]: nowOut[4]: datetime.datetime(2017, 5, 25, 13, 55, 3...原创 2017-10-15 00:32:38 · 885 阅读 · 0 评论