机器学习_交叉验证

V文宝

已于 2024-05-30 10:25:25 修改

阅读量656

点赞数 3

分类专栏：机器学习文章标签：机器学习人工智能

于 2024-05-30 09:09:50 首次发布

本文链接：https://blog.youkuaiyun.com/a6181816/article/details/139301826

版权

机器学习专栏收录该内容

17 篇文章

订阅专栏

交叉验证（Cross-Validation）是一种模型验证技术，通过重复地划分数据集来评估模型的性能，主要目的是提高模型的泛化能力，防止过拟合和欠拟合。以下详细介绍交叉验证的概念、类型及其应用。

1. 概念

交叉验证通过将数据集分成多个子集，多次训练和测试模型，以获得更可靠的模型性能评估。其核心思想是最大限度地利用可用数据，同时获得对模型性能的更准确估计。

2. 类型

2.1 K折交叉验证（K-Fold Cross-Validation）

最常见的一种交叉验证方法。步骤如下：

将数据集划分为 K 个子集（称为“折”）。
依次使用每一个子集作为验证集，其他 K-1 个子集作为训练集。
计算 K 次模型评估结果的平均值作为最终模型性能评估。

from sklearn.model_selection import KFold, cross_val_score
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier

# 准备数据
iris = load_iris()
X, y = iris.data, iris.target

# 初始化模型
model = DecisionTreeClassifier()

# K折交叉验证
kf = KFold(n_splits=5)
scores = cross_val_score(model, X, y, cv=kf, scoring='accuracy')

print(f"K-Fold Cross-Validation Accuracy Scores: {scores}")
print(f"Mean Accuracy: {scores.mean()}")

2.2 留一法（Leave-One-Out Cross-Validation, LOO-CV）

每次使用一个样本作为验证集，其他样本作为训练集。适用于小数据集。

from sklearn.model_selection import LeaveOneOut

# 留一法
loo = LeaveOneOut()
scores = cross_val_score(model, X, y, cv=loo, scoring='accuracy')

print(f"Leave-One-Out Cross-Validation Accuracy Scores: {scores}")
print(f"Mean Accuracy: {scores.mean()}")

2.3 分层K折交叉验证（Stratified K-Fold Cross-Validation）

适用于分类问题，确保每个子集中各类别的比例与原始数据集中相同。

from sklearn.model_selection import StratifiedKFold

# 分层K折交叉验证
skf = StratifiedKFold(n_splits=5)
scores = cross_val_score(model, X, y, cv=skf, scoring='accuracy')

print(f"Stratified K-Fold Cross-Validation Accuracy Scores: {scores}")
print(f"Mean Accuracy: {scores.mean()}")

2.4 时间序列交叉验证（Time Series Split）

适用于时间序列数据，确保训练集只包含时间序列之前的数据，验证集包含之后的数据。

from sklearn.model_selection import TimeSeriesSplit

# 时间序列交叉验证
tscv = TimeSeriesSplit(n_splits=5)
scores = cross_val_score(model, X, y, cv=tscv, scoring='accuracy')

print(f"Time Series Split Cross-Validation Accuracy Scores: {scores}")
print(f"Mean Accuracy: {scores.mean()}")

3. 应用

交叉验证不仅用于模型评估，还广泛应用于以下场景：

3.1 模型选择

通过交叉验证比较不同模型的性能，选择最佳模型。

from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC

# 不同模型
models = [LogisticRegression(), DecisionTreeClassifier(), SVC()]
model_names = ['Logistic Regression', 'Decision Tree', 'SVM']

for model, name in zip(models, model_names):
    scores = cross_val_score(model, X, y, cv=kf, scoring='accuracy')
    print(f"{name} Mean Accuracy: {scores.mean()}")

3.2 参数调优

结合网格搜索或随机搜索，使用交叉验证评估不同参数组合的性能。

from sklearn.model_selection import GridSearchCV

# 参数调优
param_grid = {'max_depth': [3, 5, 7], 'min_samples_split': [2, 5, 10]}
grid_search = GridSearchCV(DecisionTreeClassifier(), param_grid, cv=kf, scoring='accuracy')
grid_search.fit(X, y)

print(f"Best parameters: {grid_search.best_params_}")
print(f"Best cross-validation accuracy: {grid_search.best_score_}")

3.3 性能评估

在最终模型确定后，通过交叉验证获得可靠的性能评估结果。

final_model = DecisionTreeClassifier(max_depth=5, min_samples_split=2)
scores = cross_val_score(final_model, X, y, cv=kf, scoring='accuracy')

print(f"Final Model Mean Accuracy: {scores.mean()}")