数据分析Python综合流程_小学期末成绩统计模型-优快云博客

本文链接：https://blog.youkuaiyun.com/xzhu4571/article/details/125490416

这篇博客详细介绍了使用Python进行数据分析的完整流程，从数据读取（包括CSV、通用文件和Pickle文件）到数据预处理（如缺失值处理、重复值处理、特征编码、降维和特征缩放），再到建立各种模型（线性模型、支持向量机、随机梯度下降等）。文中还提到了数据预处理的重要技巧，如如何处理重复值和非数值特征，以及模型训练前的特征缩放。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

3.1.4. BayesianRidge贝叶斯回归

3.1.5. logistic逻辑回归

3.2. 支持向量机（SVM）

3.3. 随机梯度下降 SGD

1. 数据读取

1.1. 调用

#调用pandas库
import pandas as pd

1.2. 常用文件读取

CSV文件:以逗号将不同特征值分开的表格文件。

df_origin=pd.read_csv(filepath_or_buffer)

通用文件：支持通用格式文件。

df_origin=pd.read_table(filepath_or_buffer)

Pickle文件

df_origin=pd.read_pickle(filepath_or_buffer)

其他文件：如Excel、Json、Html等。

Reference:pandas.read_pickle — pandas 1.4.3 documentation

2. 数据预处理

2.1. 缺失值处理

#查看缺失值
df_origin.isna()

#删除缺失值
df_nona=df_origin.dropna()

#填补缺失值
#缺失值变为数值
df_nona=df_origin.fillna(0)

#缺失值由字典填补，a、b、c为特征即a特征的缺失值都变为0
df_nona=df_origin.fillna('a':0,'b':1,'c':2)

#缺失值变为同一特征上一对象的记录
df_nona=df_origin.fillna(method='ffill')

Reference: pandas.DataFrame.fillna — pandas 1.4.3 documentation

2.2. 重复值处理

#查看重复值: 表格自上而下第一个会显示False，出现和上面重复的值会显示True
df_nona.duplicated()

#去除重复值
df_nodup=df_nona.drop_duplicates()

#去除特定列有重复值的行
df_nodup=df.nona.drop_duplicates(subset=['Price'])

重复值处理需注意：因为暴力去除重复值会导致数据分布（distribution)变化，因此可选择去除重复值后对重复值数据附加权重（Weight)。比如没记录去除了18个重复值，则带上原本自身的一个，Weight= 19。

Reference:

pandas.DataFrame.drop_duplicates — pandas 1.4.3 documentationhttps://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop_duplicates.html