机器学习速成第二集——监督学习之回归+数据处理(实践部分)!

 

目录

 数据预处理

数据清洗

处理缺失值:

异常值检测与处理:

类别特征编码:

特征工程

创建新特征:

特征缩放:

探索性数据分析 (EDA)

使用Matplotlib进行可视化

绘制直方图:

绘制箱线图:

绘制散点图:

构建简单的机器学习模型

准备数据

划分训练集和测试集:

特征缩放:

训练模型

使用线性回归模型:

评估模型

计算模型的性能指标:

实战项目

项目步骤

 代码实操示例

生成图片

单变量分析:

多变量分析:

条形图:

散点图:

热力图:

数据加载与初步检查

探索性数据分析 (EDA)

数据可视化

数据准备

特征选择

目标变量

模型选择

示例代码

​编辑分析结果


 数据预处理

数据预处理是机器学习流程中非常重要的一步,它包括数据清洗、特征工程等步骤。

数据清洗
  • 处理缺失值
    # 使用中位数填充缺失值
    df['Age'].fillna(df['Age'].median(), inplace=True)
  • 异常值检测与处理
    # 使用IQR方法检测异常值
    Q1 = df['Age'].quantile(0.25)
    Q3 = df['Age'].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    df = df[(df['Age'] >= lower_bound) & (df['Age'] <= upper_bound)]
  • 类别特征编码
    # 使用one-hot编码
    df = pd.get_dummies(df, columns=['Gender'], drop_first=True)
特征工程
  • 创建新特征
    df['Total_Pay'] = df['Base_Pay'] + df['Bonus']
  • 特征缩放
    from sklearn.preprocessing import StandardScaler
    
    scaler = StandardScaler()
    scaled_features = scaler.fit_transform(df[['Age', 'Salary']])
    df[['Age', 'Salary']] = scaled_features

探索性数据分析 (EDA)

EDA 是为了更好地理解数据集的特性。我们可以使用可视化工具来辅助这一过程。

使用Matplotlib进行可视化
  • 绘制直方图
    import matplotlib.pyplot as plt
    
    plt.hist(df['Age'], bins=20)
    plt.title('Age Distribution')
    plt.xlabel('Age')
    plt.ylabel('Count')
    plt.show()
  • 绘制箱线图
    df.boxplot(column='Salary')
    plt.title('Salary Distribution')
    plt.show()
  • 绘制散点图
    plt.scatter(df['Age'], df['Salary'])
    plt.title('Age vs Salary')
    plt.xlabel('Age')
    plt.ylabel('Salary')
    plt.show()

构建简单的机器学习模型

现在我们有了清理过后的数据,可以开始构建机器学习模型了。这里我们将使用线性回归模型作为示例。

准备数据
  • 划分训练集和测试集
    from sklearn.model_selection import train_test_split
    
    X = df[['Age', 'Experience']]
    y = df['Salary']
    
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
  • 特征缩放
    from sklearn.preprocessing import StandardSc
评论 66
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不到w粉不改名

谢谢大佬的赏识!!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值