5、重采样方法与统计机器学习算法详解

zero1

于 2025-11-05 13:50:51 发布

阅读量30

点赞数

CC 4.0 BY-SA版权

分类专栏：集成机器学习实战秘籍文章标签：重采样方法交叉验证自助法

本文链接：https://blog.youkuaiyun.com/zero1/article/details/155014570

集成机器学习实战秘籍专栏收录该内容

19 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

重采样方法与统计机器学习算法详解

1. 数据集划分

在机器学习中，为了评估模型的性能，通常会将数据集划分为训练集和测试集。例如，我们可以使用 sklearn.model_selection 中的 train_test_split() 函数将数据按70%和30%的比例分别分配到训练集和测试集。
具体操作步骤如下：
1. 查看数据框维度并确认无缺失值。
2. 分离特征和响应变量。
3. 使用 train_test_split() 函数进行数据划分，设置 train_size 为0.7， test_size 为0.3。

import pandas as pd
from sklearn.model_selection import train_test_split

# 示例代码，实际中需替换为真实数据路径
df = pd.read_csv("your_data.csv")
X = df.iloc[:, :-1]
Y = df.iloc[:, -1]
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, train_size=0.7, test_size=0.3)

另外， train_size 和 test_size 取值范围在0.0到1.0之间，表示数据集分配比例；若为整数，则表示观测值的绝对数量。若