pandas read_excel官网详解

Pandas Excel读取指南

原创已于 2022-11-17 16:40:47 修改 · 376 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#pandas #python #开发语言

于 2022-11-17 00:42:21 首次发布

本文详细介绍使用Pandas库从Excel文件中读取数据的方法，包括本地文件、URL链接等多种来源，涵盖各种参数配置，例如指定列、行、日期解析等。

import pandas as pd
#官网链接：https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html#pandas.read_excel
# pandas.read_excel(io, sheet_name=0, *, header=0, names=None,
#                   index_col=None, usecols=None, squeeze=None, dtype=None,
#                   engine=None, converters=None, true_values=None, false_values=None,
#                   skiprows=None, nrows=None, na_values=None, keep_default_na=True,
#                   na_filter=True, verbose=False, parse_dates=False, date_parser=None,
#                   thousands=None, decimal='.', comment=None, skipfooter=0,
#                   convert_float=None, mangle_dupe_cols=True, storage_options=None)

#io可以为本地路径，http、ftp路径等(需要依赖xlrd库)，以及字节流等
#二进制流打开方式：
# with open(r'D:\python\文档\testdoc\a.xlsx','rb') as f:
#     b = pd.read_excel(f,sheet_name=0)
# #excelFile方式
# xls = pd.ExcelFile(r'D:\python\文档\testdoc\excel操作技巧(自制).xls')
# c = pd.read_excel(xls,sheet_name=0)
#excelFile方式,参数说明
#sheetname 默认0，可为字符串名字；可以为列表，如[0,1]或['Sheet1','Sheet2'],返回字典,{0:DataFrame...}
#header 默认0为标题行，若无标题行可设置为None，如设置为3，则0-2行不会被读取，若设为None，则是0开始的数字行索引。
#index_col 指定列索引，默认为None,默认情况下是0开始的数字列索引
#usecols,指定读取的列，可为字符串,可用字母表示范围'A:D'，可为int列表[0,1,2],可为函数(返回True)
#nrows 返回读取的行数
#engine 指定处理引擎
#skiprows 跳过指定的行,list-like, int, or callable
#skipfooterint, 跳过指定的行尾
#dtype 指定某些列的数据类型   dtype={'codes': str} or dtype={1: str}
#converters 强制转换列数据类型 converters={'日期':str}， value值为转换函数，优先级高于dtype
#na_filter 是否标记空值，默认为True，关闭可以提高性能，关闭后不会识别空值，关闭后keep_default_na及na_values自动失效
#keep_default_na 解析数据时是否包括默认NAN值,默认开启
#na_values scalar, str, list-like, or dict，指定哪些string会被识别为空值,na_filter及keep_default_na为True时有效.
#parse_dates 尝试将数据解析为日期格式,{'时间':['年份','月份']};将会尝试解析年份和月份拼接起来，并将列名重置为‘时间’
#parse_dates=True : 尝试解析index为日期格式；parse_dates=[['年份','月份']] 或 parse_dates=[[3,4]]，尝试将其解析并且拼接起来，拼接字符串放首列。
#parse_dates=[0,1,2,3,4] : 尝试解析0，1，2，3，4列为时间格式；
#date_parser 指定解析格式去解析某种不常见的格式，如：date_parser=lambda x:pd.to_datetime(x,format=’%Y年%m月%d日’）,需在parse_dates中指定需要转换时间的列
a = pd.read_excel(r'D:\python\文档\testdoc\c.xlsx',sheet_name=0,header=0,index_col=None,
                  usecols='A:H',nrows=19,skiprows=[2,4],dtype={6: str},na_filter=True,keep_default_na=True,
                  parse_dates=['日期2'],date_parser=lambda x:pd.to_datetime(x,format='%Y年%m月%d日'),convert_float=False)

#通过url打开文件
headers = {"User-Agent": "pandas"}
df = pd.read_csv(
    "https://download.bls.gov/pub/time.series/cu/cu.item",
    sep="\t",
    storage_options=headers
)