Pandas数据存储

最新推荐文章于 2024-09-16 00:10:39 发布

转载最新推荐文章于 2024-09-16 00:10:39 发布 · 121 阅读

CC 4.0 BY-SA版权

原文链接：https://yq.aliyun.com/articles/602992

文章标签：

Pandas数据存取

Pandas可以存取多种介质类型数据，例如：内存、文本、CSV、JSON、HTML、Excel、HDF5、SQL等

生成数据

import numpy as np 
import pandas as pd

df = pd.DataFrame(np.random.randn(1000, 4), columns = ['A', 'B', 'C', 'D'])

df.head()

df02 = pd.date_range()

写入CSV

df.to_csv('foo01.csv')

# 不保存行索引
df.to_csv('foo02.csv', index=False)

读取CSV

read_csv = pd.read_csv('foo02.csv')
read_csv.head()

读取CSV其他参数

pd.read_csv(
    'foo02.csv', # 文件名
    usecols=[0,1,2,4], # 读取指定列
    nrows=5, # 读取前几行
    encoding='GBK' # 编码，根据文本编码修改，默认utf-8,可以指定为GBK
)

x = pd.read_csv(
    'foo02.csv',
    parse_dates = {'timestamp': ['data','time']}, # 将两列合并解析为时间格式
    index_col = 'timestamp' # 将时间设为行索引
)

写入HDF5

df.to_hdf('foo.h5', 'df')

从HDF5读取

pd.read_hdf('foo.h5', 'df')

写入Excel文件

df.to_excel('foo.xlsx', sheet_name='Sheet1')

从Excel文件读取

pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA'])