5、重采样方法与统计机器学习算法详解

bean

于 2025-10-26 13:57:17 发布

阅读量44

点赞数

CC 4.0 BY-SA版权

分类专栏：集成学习实战指南文章标签：重采样交叉验证自助法

本文链接：https://blog.youkuaiyun.com/bean/article/details/154592483

集成学习实战指南专栏收录该内容

19 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

重采样方法与统计机器学习算法详解

数据划分与重采样基础

在机器学习中，为了评估模型的性能，通常需要将数据集划分为训练集和测试集。一般情况下，会将 70%的数据分配给训练集，30%的数据分配给测试集。具体操作步骤如下：
1. 查看数据维度与缺失值 ：检查数据的基本信息，确保数据集没有缺失值。
2. 分离特征与响应变量 ：将数据集中的特征和响应变量分开。
3. 使用 train_test_split() 函数划分数据 ：该函数来自 sklearn.model_selection ，可以通过设置 train_size 和 test_size 参数来指定训练集和测试集的比例，这两个参数取值范围在 0.0 到 1.0 之间，表示分配给每个子集的数据集比例；若提供整数值，则表示观测值的绝对数量。若不提供其中一个参数，其值会自动补充另一个参数的值。例如：

from sklearn.model_selection import train_test_split
import pandas as pd

# 假设 df 是我们的数据集
df = pd.read_csv("your_data.csv")
X = df.iloc[:, :-1]  # 特征集
Y = df.iloc[:, -1]   # 响应变量
X_train, X_test, Y_train, Y_test = train_tes