目录
1. 数据读取
1.1. 调用
#调用pandas库
import pandas as pd
1.2. 常用文件读取
CSV文件:以逗号将不同特征值分开的表格文件。
df_origin=pd.read_csv(filepath_or_buffer)
通用文件:支持通用格式文件。
df_origin=pd.read_table(filepath_or_buffer)
Pickle文件
df_origin=pd.read_pickle(filepath_or_buffer)
其他文件:如Excel、Json、Html等。
Reference:pandas.read_pickle — pandas 1.4.3 documentation
2. 数据预处理
2.1. 缺失值处理
#查看缺失值
df_origin.isna()
#删除缺失值
df_nona=df_origin.dropna()
#填补缺失值
#缺失值变为数值
df_nona=df_origin.fillna(0)
#缺失值由字典填补,a、b、c为特征即a特征的缺失值都变为0
df_nona=df_origin.fillna('a':0,'b':1,'c':2)
#缺失值变为同一特征上一对象的记录
df_nona=df_origin.fillna(method='ffill')
Reference: pandas.DataFrame.fillna — pandas 1.4.3 documentation
2.2. 重复值处理
#查看重复值: 表格自上而下第一个会显示False,出现和上面重复的值会显示True
df_nona.duplicated()
#去除重复值
df_nodup=df_nona.drop_duplicates()
#去除特定列有重复值的行
df_nodup=df.nona.drop_duplicates(subset=['Price'])
重复值处理需注意:因为暴力去除重复值会导致数据分布(distribution)变化,因此可选择去除重复值后对重复值数据附加权重(Weight)。比如没记录去除了18个重复值,则带上原本自身的一个,Weight= 19。
Reference:
2.3.特征编码
由于机器只能识别数值ÿ