1.pandas:强大的数据分析与处理工具
- 快速、灵活、富有表现力的数据机构(Series系列和DataFrame数据框)
- 支持类似于SQL的数据增删改查
- 丰富的数据处理函数
- 支持时间序列分析功能
- 支持灵活处理缺失值
2.读文件函数
函数名称 | 说明 |
---|---|
read_table | 读取csv文件,默认分隔符号“\t” |
read_csv | 读取csv文件,默认分割符号“,” |
read_excel | 读取excel文件 |
read_hdf | 读取hdf文件(HDF用于存储和分发科学数据的一种自我描述、多对象文件格式) |
read_sql | |
read_json | |
read_msgpack(experimental) | |
read_html | |
read_gbq(experimental) | |
read_clipboard |
|
代码展示:
# ----------------------------------read_table-------------------------------------
# --常用参数
# --filepath_or_buffer:文件地址
# --seq="\t":默认是tab分割的数据,如果是其他分隔符可以进行更改
# --header='infer':默认会自动推断文件头,如果设置为None则无文件头,为1则第一行为文件头
# --engine=None: 默认是C引擎解析,如果使用python引擎,可以解析更丰富的内容。('python')
# --encoding: 表示在读文件时采用的编码格式
data1 = pd.read_table("3.1_data.txt", sep=",", header=1, engine="python", encoding="utf-8")
print(data1)
# ----------------------------------read_csv---------------------------------------
# --同上
# --与read_table的不同之处是:默认的分隔符为seq=','
# ----------------------------------read_excel-------------------------------------
# --常用参数
# --io: 文件路径
# --sheet_name:返回多表使用sheetname=[0,1],若sheetname=None是返回全表 注意:int/string 返回的是dataframe,而none和list返回的是dict of dataframe
# --header: 指定列名行,数据为列名行一下内容,默认为None
# --skiprows:从上往下,省略指定行数的数据
# --skipfooter:从下往上,省略指定行数的数据
# --names:指定列的名字
# --index_col: 指定某一列为索引列,可以赋值为string
data2 = pd.read_excel(io="myXls.xls", sheet_name="Sheet2", header=None, skiprows=3, skipfooter=1, names=["A", "B", "C"])
print(data2)
# ----------------------------------read_hdf---------------------------------------
# --def read_hdf(path_or_buf, key=None, mode='r', **kwargs)
# --常用参数
# --path_or_buf:文件路径
# --key:商店中的组标识符
# --mode: 打开文件的模式
# --start: 开始的行号(包括)
# --stop: 停止的行号(不包括)
data3 = pd.DataFrame([[1, 1.0, 'a'], [2, 2.2, 2.3], [3.4, 3.5, 3.6]], columns=["x", "y", "z"])
data3.to_hdf("store.h5", "data")
reread = pd.read_hdf(path_or_buf="store.h5", key=None, mode="r", start=0, stop=3)
print(reread)