文章目录
- 一、Pandas读取CSV
- 二、将 Excel 电子表格加载为 pandas DataFrame
-
- 2.1 使用excel文件创建数据帧
-
- 2.1.1 使用数据帧读取文件
- 2.1.2 使用 read_excel() 方法的“sheet_name”阅读特定表格。
- 2.1.3 使用 read_excel() 方法的 'usecols' 参数读取特定列
- 2.1.4 使用 read_excel() 方法的 'na_values' 参数处理缺失数据
- 2.1.5 read_excel() 方法的 'skiprows' 参数读取 Excel 文件时跳过起始行
- 2.1.6 将标题设置为任何行,并使用 read_excel() 方法的 'header' 参数从该行开始读取
- 2.1.7 使用 read_excel() 方法的 'sheet_name' 参数读取多个 Excel 工作表
- 2.1.8 使用 read_excel() 方法的 'sheet_name' 参数一起读取 excel 文件的所有表格
公众号/小红书:快乐数模
一、Pandas读取CSV
1.1 Pandas read_csv的语法
以下是 Pandas 读取 CSV 语法及其参数:
pd.read_csv(filepath_or_buffer, sep=' ,' , header='infer', index_col=None, usecols=None, engine=None, skiprows=None, nrows=None)
filepath_or_buffer:csv 文件的位置。它接受文件的任何字符串、路径或 URL。
sep:代表分隔符,默认为“,”。
header:它接受 int、int 列表、用作列名的行号以及数据的开头。如果未传递任何名称,或想要自动生成列名时,即 header=None,则它将第一列显示为 0,第二列显示为 1,依此类推。
usecols:仅从 CSV 文件中检索选定的列。
nrows:要从数据集中显示的行数。
index_col:如果为 None,则不会随记录一起显示索引号。
skiprows:跳过新数据帧中传递的行。
下面分别给出一些例子
1.1.1 使用 Pandas read_csv读取 CSV 文件
首先导入Pandas库,使用Pandas库加CSV文件:
# Import pandas
import pandas as pd
# reading csv file
df = pd.read_csv("people.csv")
print(df.head())
1.1.2 read_csv() 中使用 sep
获取CSV 文件,添加一些特殊字符查看 sep 参数的工作原理。
# sample = "totalbill_tip, sex:smoker, day_time, size
# 16.99, 1.01:Female|No, Sun, Dinner, 2
# 10.34, 1.66, Male, No|Sun:Dinner, 3
# 21.01:3.5_Male, No:Sun, Dinner, 3
#23.68, 3.31, Male|No, Sun_Dinner, 2
# 24.59:3.61, Female_No, Sun, Dinner, 4
# 25.29, 4.71|Male, No:Sun, Dinner, 4"
# Importing pandas library
import pandas as pd
# Load the data of csv
df = pd.read_csv('sample.csv',
sep='[:, |_]', # 这里的分割符可以是 : , | _ 这四种都可以。
engine='python') #使用正则表达式作为分割符时,这里的engine = 'python'是必须的。
# Print the Dataframe
print(df)
1.1.3 read_csv() 中使用 use_cols
使用“性别”、“职位”索引,简单地使用index_col参数重新索引标题。
df = pd.read_csv('people.csv',
header=0, #指定CSV文件的第一行(索引为0)是列名
index_col=["Sex", "Job Title"], #选择特定列作为索引,后续组织数据的特定列使用
usecols=["Sex", "Job Title", "Email"]) #读进三列数据
print(df.head())
1.1.4 在 read_csv() 中使用 nrows
设定nrows()参数显示五行。
df = pd.read_csv('people.csv'