重采样方法与统计机器学习算法详解
1. 数据集划分
在机器学习中,为了评估模型的性能,通常会将数据集划分为训练集和测试集。例如,我们可以使用 sklearn.model_selection 中的 train_test_split() 函数将数据按70%和30%的比例分别分配到训练集和测试集。
具体操作步骤如下:
1. 查看数据框维度并确认无缺失值。
2. 分离特征和响应变量。
3. 使用 train_test_split() 函数进行数据划分,设置 train_size 为0.7, test_size 为0.3。
import pandas as pd
from sklearn.model_selection import train_test_split
# 示例代码,实际中需替换为真实数据路径
df = pd.read_csv("your_data.csv")
X = df.iloc[:, :-1]
Y = df.iloc[:, -1]
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, train_size=0.7, test_size=0.3)
另外, train_size 和 test_size 取值范围在0.0到1.0之间,表示数据集分配比例;若为整数,则表示观测值的绝对数量。若
超级会员免费看
订阅专栏 解锁全文
3万+

被折叠的 条评论
为什么被折叠?



