
pandas
Claroja
这个作者很懒,什么都没留下…
展开
-
Pandas iloc loc []
import pandas as pdse = pd.Series([0,1,2,3,4,5],index=[0,2,3,4,5,6])series切片slice时是绝对位置索引se[1:4] 等价于series.iloc[1:4]2 13 24 3dtype: int64单取值时是相对位置,按label来取,此时如果取1则会报错,因为1不在index里面...原创 2019-11-14 21:29:21 · 246 阅读 · 0 评论 -
Python Pandas General functions(静态方法)
数据框操作方法描述melt(frame[, id_vars, value_vars, var_name, …])Unpivot a DataFrame from wide format to long format, optionally leaving identifier variables set.pivot(data[, index, columns, val...原创 2019-11-14 21:28:15 · 322 阅读 · 0 评论 -
pandas 增删改
[]基本索引1.series对象索引label(既index),dataframe对象索引列名Object TypeSelectionReturn Value TypeSeriesseries[label]scalar valueDataFrameframe[colname]Series corresponding to colname2.切片索引...原创 2019-11-14 21:27:42 · 220 阅读 · 0 评论 -
Pandas to_numeric
参数描述argscalar, list, tuple, 1-d array, or Serieserrors{‘ignore’, ‘raise’, ‘coerce’}, default ‘raise’downcast{‘integer’, ‘signed’, ‘unsigned’, ‘float’} , default None,指定转换的类型,默认返回flo...原创 2019-11-14 21:27:15 · 13034 阅读 · 1 评论 -
Pandas to_datetime
pandas.to_datetime(arg, errors='raise', dayfirst=False, yearfirst=False, utc=None, box=True, format=None, exact=True, unit=None, infer_datetime_format=False, origin='unix', cache=True)参数描述a...原创 2019-11-14 21:26:50 · 267 阅读 · 0 评论 -
Pandas dtypes
pandas的Series和dataframe中的column 使用numpy的数据类型,float, int, bool, timedelta64[ns],datetime64[ns],当然还pandas还有自带的类型(不常用)类型描述intint8, int16, int32, int64floatfloat16, float32, float64, float...原创 2019-11-14 21:26:27 · 714 阅读 · 0 评论 -
Pandas to_string
Pandas中并没有to_string方法,使用astype('str')来代替,在Pandas中,任何类型都可以转换为strimport pandas as pdimport numpy as nps = pd.Series(['apple', '1.0', '2','2019-01-02',1, False,None,pd.Timestamp('2018-01-05')])s.str[...原创 2019-11-14 21:25:56 · 2521 阅读 · 0 评论 -
Pandas to_bool
pandas中没有转换为bool的方法,使用astype('bool')来替代,注意import pandas as pdimport numpy as nps = pd.Series(['apple', '1.0', '2','2019-01-02',1,0,-1,np.NaN,False,None,pd.Timestamp('2018-01-05')])s = s.astype('bo...原创 2019-11-14 21:25:34 · 638 阅读 · 0 评论 -
Pandas to_timedelta
pandas.to_timedelta(arg, unit='ns', box=True, errors='raise')参数描述arg : str, timedelta, list-like or Seriesunit : str, default ‘ns’box : bool, default Trueerrors : {‘ignore’, ‘raise’, ‘coe...原创 2019-11-14 21:25:06 · 818 阅读 · 0 评论 -
Pandas timedelta_range
pandas.timedelta_range(start=None, end=None, periods=None, freq=None, name=None, closed=None)参数描述start : string or timedelta-like, default Noneend : string or timedelta-like, default No...原创 2019-11-14 21:24:37 · 507 阅读 · 0 评论 -
Pandas period_range
pandas.period_range(start=None, end=None, periods=None, freq=None, name=None)参数描述start : string or period-like, default Noneend : string or period-like, default Noneperiods : integer, defa...原创 2019-11-14 21:23:59 · 464 阅读 · 0 评论 -
Pandas Period
class pandas.Period参数描述value : Period or str, default Nonefreq : str, default Noneyear : int, default Nonemonth : int, default 1quarter : int, default Noneday : int, default 1hour : in...原创 2019-11-14 21:23:30 · 239 阅读 · 0 评论 -
Pandas DateOffset
class pandas.tseries.offsets.DateOffset(n=1, normalize=False, **kwds)原创 2019-11-14 21:23:01 · 877 阅读 · 0 评论 -
Pandas 判断字符串类型
In [1]: import pandas as pd ...: df=pd.Series(["1","a",1]) ...: dfOut[1]: 0 11 a2 1dtype: objectIn [2]: df.str.isnumeric()Out[2]: 0 True1 False2 NaNdtype: objectIn原创 2017-06-30 14:27:01 · 7556 阅读 · 0 评论 -
Pandas GroupBy 分组(分割-应用-组合)
简介分组(group by)一般是指三个过程分割(Splitting)将数据按照某个标准分组应用(Applying)对每个分组分别使用函数组合(Combining)将结果组合成数据框groupby对象import pandas as pdimport numpy as npdf = pd.DataFrame({'A' : ['foo', 'bar', 'foo'原创 2017-04-30 11:51:07 · 4542 阅读 · 0 评论 -
Pandas set_index&reset_index
set_indexDataFrame可以通过set_index方法,可以设置单索引和复合索引。 DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False) append添加新索引,drop为False,inplace为True时,索引将会还原为列In [307]: dataO翻译 2017-04-28 15:11:35 · 15547 阅读 · 0 评论 -
Pandas 排序之后索引问题
In [1]: import pandas as pd ...: df=pd.DataFrame({"a":[1,2,3,4,5],"b":[5,4,3,2,1]})In [2]: dfOut[2]: a b0 1 51 2 42 3 33 4 24 5 1In [3]: df=df.sort_values(by="b") # 按照b列排序In [4]原创 2017-07-26 17:17:58 · 11418 阅读 · 0 评论 -
Pandas 对象储存
In [1]: import pandas as pd ...: a1=[1,2,3] ...: a2=[[1,2,3]] ...: b=1DataFrame讲b的值复制了3遍,使得“a1”,“b”列的长度相同In [2]: pd.DataFrame({"a1":a1,"b":b})Out[2]: a1 b0 1 11 2 12 3 1DataF原创 2017-07-26 13:42:45 · 1049 阅读 · 0 评论 -
Pandas DataFrame 去重
In [1]: import pandas as pd ...: a1=[1,2,3,4] ...: a2=[1,1,2,3] ...: df=pd.DataFrame({"a1":a1,"a2":a2})In [2]: df.duplicated("a2") # 返回a2列是否重复,第一次出现重复的数据为False,其余为TrueOut[2]: 0 False1原创 2017-08-02 15:22:07 · 6309 阅读 · 0 评论 -
Pandas Timedelta对象
属性 描述 TimedeltaIndex Immutable ndarray of timedelta64 data, represented internally as int64, and TimedeltaIndex.days 天数 TimedeltaIndex.seconds Number of seconds (>= 0 and less than 1 day)翻译 2017-07-21 11:03:49 · 1063 阅读 · 0 评论 -
Numpy 数据精度
Data type Description bool_ Boolean (True or False) stored as a byte int_ Default integer type (same as C long normally either int64 or int32) intc Identical to C int (normally int32 or in翻译 2017-07-06 10:58:04 · 5456 阅读 · 0 评论 -
Pandas 缺省值处理
null/None/NaN null经常出现在数据库中 None是python中的缺失值,类型是NoneType NaN也是python中的缺失值,意思是不是一个数字,类型是float 在pandas和Numpy中会将None替换为NaN,而导入数据库中的时候则需要把NaN替换成None找出空值isnull() notnull()添加空值numeric容器会把None转换为NaNIn [2原创 2017-06-27 13:06:14 · 14880 阅读 · 0 评论 -
Pandas GroupBy对象
本文所用例子import pandas as pddf = pd.DataFrame({'性别' : ['男', '女', '男', '女', '男', '女', '男', '男'], '成绩' : ['优秀', '优秀', '及格', '差',原创 2017-05-23 09:04:30 · 15192 阅读 · 0 评论 -
Pandas index详解
总括pandas里对索引的操作主要有 1. DataFrame.rename 2. DataFrame.rename_axis 3. DataFrame.reindex 4. DataFrame.reindex_axis 5. DataFrame.reset_index 6. pandas.Index.reindex 7. pandas.Index.set_names 其中1和...原创 2017-06-09 09:43:11 · 39339 阅读 · 0 评论 -
Pandas Apply函数
Series.applySeries.apply(func, convert_dtype=True, args=(), **kwds) 对序列的每一个元素作用传入的函数参数 参数 描述 func : function 所要应用的函数 convert_dtype : boolean, default True 试着找到最适合的结果类型 args : tuple 传入函数原创 2017-06-30 16:46:38 · 5415 阅读 · 0 评论 -
Pandas dtypes(数据类型)
Pandas所支持的数据类型: float, int, bool, datetime64[ns] and datetime64[ns, tz] , timedelta[ns], category, and object. 查看数据类型df.dtypesIn [332]: dft = pd.DataFrame(dict(A = np.random.rand(3), .....:原创 2017-05-23 16:55:29 · 107914 阅读 · 16 评论 -
pandas.Series.asfreq
http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.asfreq.html#pandas.Series.asfreqSeries.asfreq(freq, method=None, how=None, normalize=False, fill_value=None)参数 参数 描述 freq : Date翻译 2017-09-13 11:49:21 · 2155 阅读 · 0 评论 -
to_datetime(*args, **kwargs)
http://pandas.pydata.org/pandas-docs/stable/generated/pandas.to_datetime.html#pandas.to_datetimepandas.to_datetime(arg, errors='raise', dayfirst=False, yearfirst=False, utc=None, box=True, format=None,翻译 2017-09-13 17:15:34 · 696 阅读 · 0 评论 -
Pandas 通用方法
数据操控 方法 描述 melt(frame[, id_vars, value_vars, var_name, …]) “Unpivots” a DataFrame from wide format to long format, optionally leaving pivot(index, columns, values) 创建透视表 pivot翻译 2017-05-24 13:18:13 · 1111 阅读 · 0 评论 -
Pandas 文本数据方法 pad( ) center( ) ljust() rjust() zfill()
Series.str.pad(width, side=’left’, fillchar=’ ‘)设置字符串的宽度 参数: width : 整型,字符串最小的宽度 side : {‘left’, ‘right’, ‘both’}填充的方向 fillchar : 字符串,空白的地方填充的东西 返回值: 序列Series/索引Indeximport pandas as pds = pd.S原创 2017-03-22 19:09:29 · 2486 阅读 · 0 评论 -
pandas.plotting
方法 描述 andrews_curves(frame, class_column[, ax, …]) Generates a matplotlib plot of Andrews curves, for visualising clusters of multivariate data. bootstrap_plot(series[, fig, size, sa...原创 2018-05-02 13:33:17 · 1993 阅读 · 0 评论 -
pandas 散布矩阵
from sklearn.datasets import load_irisdata = load_iris() # 获得iris数据集data.keys()data['data']data['target']data['target_names']data['feature_names']data['DESCR']print(data['DESCR']import pand...原创 2018-05-02 13:19:43 · 684 阅读 · 0 评论 -
Pandas Series
http://pandas-docs.github.io/pandas-docs-travis/api.html构造方法 方法 描述 Series([data, index, dtype, name, copy, …]) 一维序列属性 方法 描述 Series.index 轴标签 Series.values...翻译 2017-05-24 13:17:18 · 6707 阅读 · 0 评论 -
pandas.Series.isin
isin>>> s = pd.Series(list('abc'))>>> s.isin(['a', 'c', 'e'])0 True1 False2 Truedtype: boolisnotin>>> s = pd.Series(list('abc'))>>> ~s.isin(['a', 'c', 'e'])0 False1原创 2018-02-05 12:02:24 · 2125 阅读 · 0 评论 -
Pandas DataFrame
http://pandas.pydata.org/pandas-docs/stable/api.html#dataframe构造函数 方法 描述 DataFrame([data, index, columns, dtype, copy]) 构造数据框属性和数据 方法 描述 Axes index: row labels翻译 2017-05-24 13:15:53 · 12561 阅读 · 0 评论 -
Pandas GroupBy对象 索引与迭代
import pandas as pddf = pd.DataFrame({'性别' : ['男', '女', '男', '女', '男', '女', '男', '男'], '成绩' : ['优秀', '优秀', '及格', '差',翻译 2017-06-08 11:42:10 · 15895 阅读 · 1 评论 -
Series.str.split([pat, n, expand])
Series.str.split([pat, n, expand])Series.str会将每一行中的内容当成字符串来看待。 series.str.split(” “).str则每一行的列表当成字符Series.str[0]是返回每一行第一个字符series.str.split(" ").str[0] 返回的是分割之后列表的第一个元素Series.str can be used t...原创 2018-03-24 21:56:30 · 2222 阅读 · 1 评论 -
Pandas库
数据框基本操作Pandas数据框基本操作(增删改查)Pandas dtypes(数据类型)Pandas 列索引操作Pandas 索引(index)/选取(select)/标签(label)操作pandas IOPandas 缺省值处理Pandas GroupBy 分组Pandas.plot 做图DataFrame 排序Pandas通用方法Pandas 通用方法...原创 2017-04-30 23:31:53 · 2378 阅读 · 1 评论 -
date_range
http://pandas.pydata.org/pandas-docs/stable/generated/pandas.date_range.html#pandas.date_rangepandas.date_range(start=None, end=None, periods=None, freq='D', tz=None, normalize=False, name=None, closed翻译 2017-09-12 11:52:43 · 735 阅读 · 0 评论 -
pandas.tseries.offsets
Class name Description DateOffset Generic offset class, defaults to 1 calendar day BDay business day (weekday) CDay 这个可以设置特定的假期 Week one week, optionally anchored on a day of the week翻译 2017-09-13 17:44:54 · 5829 阅读 · 0 评论