pandas基础操作
Pandas是一个强大的时间序列数据处理工具包,最初开发用于分析财经数据,现在广泛的应用于数据分析领域。
对象的创建
pandas的两个基本数据结构分别是Series和DataFrame,其中Series是最基本的数据结构,用来表达一行数据,可以理解为一维的数组。DataFrame是较为关键的数据结构,可以理解为表示的是二维数组。
创建Series对象 pd.Series(array|list)
创建DataFrame对象 df = pd.DataFrame(columns=list)
DataFrame中的数据其实是以Numpy的array对象来保存的
@requires_authorization
s = pd.Series(np.arange(6))
df = pd.DataFrame(np.random.randn(6, 4), columns=list('ABCD'))
对象的访问
原始数据(含数据类型)的访问 df.values
按行访问数据 df.iloc[index]
按列名访问某列的数据 df.column_name
维度信息的查看 df.shape
前n行或后n行数据的访问 df.head(num)
df.tail(num
对行索引和列索引的访问 df.index
df.columns
关于数据表的简单统计信息的访问 df.describe
按索引范围访问 df[3:5]
按指定列名访问几列数据 df[['A', 'B', 'C']]
按行列访问具体元素 df.loc[3, 'A']
df.iloc[3, 0]
df.iloc[2:5, 0:2]
按条件访问 df[df.C > 0]
列添加 df['TAG'] = ['cat', 'dog', 'cat', 'cat', 'cat', 'dog']
按某列分组访问 result = df.groupby('TAG').sum()
时间序列
Pandas提供了强大的时间序列处理功能,具体表现为可以创建以时间序列为索引的数据集,并对日期数据进行相关的操作。
@requires_authorization
stockdata = pd.read_csv(
'E:\\Pyworkspace\\NLTK_Essentials\\dow_jones_index\\dow_jones_index.data',
parse_dates=['date'],
index_col=['date'],