数学建模之数据分析【六】：Pandas读取数据集的实用操作

本文链接：https://blog.youkuaiyun.com/lmx1458070445/article/details/141259639

文章目录

一、Pandas读取CSV
二、将 Excel 电子表格加载为 pandas DataFrame
- 2.1 使用excel文件创建数据帧

公众号/小红书：快乐数模

一、Pandas读取CSV

1.1 Pandas read_csv的语法

以下是 Pandas 读取 CSV 语法及其参数:

pd.read_csv（filepath_or_buffer， sep=' ，' ， header='infer'， index_col=None， usecols=None， engine=None， skiprows=None， nrows=None）

filepath_or_buffer：csv 文件的位置。它接受文件的任何字符串、路径或 URL。
sep：代表分隔符，默认为“，”。
header：它接受 int、int 列表、用作列名的行号以及数据的开头。如果未传递任何名称，或想要自动生成列名时，即 header=None，则它将第一列显示为 0，第二列显示为 1，依此类推。
usecols：仅从 CSV 文件中检索选定的列。
nrows：要从数据集中显示的行数。
index_col：如果为 None，则不会随记录一起显示索引号。
skiprows：跳过新数据帧中传递的行。

下面分别给出一些例子

1.1.1 使用 Pandas read_csv读取 CSV 文件

首先导入Pandas库，使用Pandas库加CSV文件：

# Import pandas
import pandas as pd

# reading csv file 
df = pd.read_csv("people.csv")
print(df.head())

1.1.2 read_csv（）中使用 sep

获取CSV 文件，添加一些特殊字符查看 sep 参数的工作原理。

# sample = "totalbill_tip, sex:smoker, day_time, size
# 16.99, 1.01:Female|No, Sun, Dinner, 2
# 10.34, 1.66, Male, No|Sun:Dinner, 3
# 21.01:3.5_Male, No:Sun, Dinner, 3
#23.68, 3.31, Male|No, Sun_Dinner, 2
# 24.59:3.61, Female_No, Sun, Dinner, 4
# 25.29, 4.71|Male, No:Sun, Dinner, 4"

# Importing pandas library
import pandas as pd

# Load the data of csv
df = pd.read_csv('sample.csv',
                 sep='[:, |_]',  # 这里的分割符可以是   : , | _   这四种都可以。
                 engine='python') #使用正则表达式作为分割符时，这里的engine = 'python'是必须的。
# Print the Dataframe
print(df)

1.1.3 read_csv（）中使用 use_cols

使用“性别”、“职位”索引，简单地使用index_col参数重新索引标题。

df = pd.read_csv('people.csv',
        header=0,  #指定CSV文件的第一行（索引为0）是列名
        index_col=["Sex", "Job Title"],  #选择特定列作为索引，后续组织数据的特定列使用
        usecols=["Sex", "Job Title", "Email"])    #读进三列数据
print(df.head())