python3pandas文件读写

最新推荐文章于 2023-08-11 11:58:26 发布

原创最新推荐文章于 2023-08-11 11:58:26 发布 · 742 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #pandas #python读写文件

Python 3.0 同时被 2 个专栏收录

86 篇文章

订阅专栏

人工智能

82 篇文章

订阅专栏

本文介绍Pandas这一高效的数据分析工具，涵盖其核心特点及多种文件读取方式，如CSV、Excel等，并通过实例展示了不同读取函数的使用方法。

1.pandas:强大的数据分析与处理工具

快速、灵活、富有表现力的数据机构（Series系列和DataFrame数据框）
支持类似于SQL的数据增删改查
丰富的数据处理函数
支持时间序列分析功能
支持灵活处理缺失值

2.读文件函数

函数名称	说明
read_table	读取csv文件，默认分隔符号“\t”
read_csv	读取csv文件，默认分割符号“，”
read_excel	读取excel文件
read_hdf	读取hdf文件（HDF用于存储和分发科学数据的一种自我描述、多对象文件格式）
read_sql
read_json
read_msgpack(experimental)
read_html
read_gbq(experimental)
read_clipboard

代码展示：

# ----------------------------------read_table-------------------------------------
# --常用参数
# --filepath_or_buffer:文件地址
# --seq="\t":默认是tab分割的数据，如果是其他分隔符可以进行更改
# --header='infer':默认会自动推断文件头，如果设置为None则无文件头，为1则第一行为文件头
# --engine=None: 默认是C引擎解析，如果使用python引擎，可以解析更丰富的内容。（'python'）
# --encoding: 表示在读文件时采用的编码格式
data1 = pd.read_table("3.1_data.txt", sep=",", header=1, engine="python", encoding="utf-8")
print(data1)

# ----------------------------------read_csv---------------------------------------
# --同上
# --与read_table的不同之处是：默认的分隔符为seq=','

# ----------------------------------read_excel-------------------------------------
# --常用参数
# --io: 文件路径
# --sheet_name:返回多表使用sheetname=[0,1],若sheetname=None是返回全表 注意：int/string 返回的是dataframe，而none和list返回的是dict of dataframe
# --header: 指定列名行，数据为列名行一下内容，默认为None
# --skiprows:从上往下，省略指定行数的数据
# --skipfooter:从下往上，省略指定行数的数据
# --names：指定列的名字
# --index_col: 指定某一列为索引列，可以赋值为string
data2 = pd.read_excel(io="myXls.xls",  sheet_name="Sheet2", header=None, skiprows=3, skipfooter=1, names=["A", "B", "C"])
print(data2)

# ----------------------------------read_hdf---------------------------------------
# --def read_hdf(path_or_buf, key=None, mode='r', **kwargs)
# --常用参数
# --path_or_buf：文件路径
# --key：商店中的组标识符
# --mode: 打开文件的模式
# --start: 开始的行号（包括）
# --stop: 停止的行号（不包括）
data3 = pd.DataFrame([[1, 1.0, 'a'], [2, 2.2, 2.3], [3.4, 3.5, 3.6]], columns=["x", "y", "z"])
data3.to_hdf("store.h5", "data")
reread = pd.read_hdf(path_or_buf="store.h5", key=None, mode="r", start=0, stop=3)
print(reread)