【解决（几乎）任何机器学习问题】：超参数优化篇（超详细）

原创

已于 2024-02-15 18:15:37 修改 · 8.8k 阅读

79 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

于 2024-02-15 17:24:22 首次发布

这篇文章相当长，您可以添加至收藏夹，以便在后续有空时候悠闲地阅读。

有了优秀的模型，就有了优化超参数以获得最佳得分模型的难题。那么，什么是超参数优化呢？假设您的机器学习项⽬有⼀个简单的流程。有⼀个数据集，你直接应⽤⼀个模型，然后得到结果。模型在这⾥的参数被称为超参数，即控制模型训练/拟合过程的参数。如果我们⽤ SGD 训练线性回归，模型的参数是斜率和偏差，超参数是学习率。你会发现我在本章和本书中交替使⽤这些术语。假设模型中有三个参数 a、b、c，所有这些参数都可以是 1 到 10 之间的整数。这些参数的 "正确 "组合将为您提供最佳结果。因此，这就有点像⼀个装有三拨密码锁的⼿提箱。不过，三拨密码锁只有⼀个正确答案。⽽模型有很多正确答案。那么，如何找到最佳参数呢？⼀种⽅法是对所有组合进⾏评估，看哪种组合能提⾼指标。让我们看看如何做到这⼀点。

best_accuracy = 0
best_parameters = {"a": 0, "b": 0, "c": 0}
for a in range(1, 11):
    for b in range(1, 11):
        for c in range(1, 11):
            model = MODEL(a, b, c)
            model.fit(training_data)
            preds = model.predict(validation_data)
            accuracy = metrics.accuracy_score(targets, preds)
            if accuracy > best_accuracy:
                best_accuracy = accuracy
                best_parameters["a"] = a
                best_parameters["b"] = b
                best_parameters["c"] = c

在上述代码中，我们从 1 到 10 对所有参数进⾏了拟合。因此，我们总共要对模型进⾏ 1000 次（10 x 10 x 10）拟合。这可能会很昂贵，因为模型的训练需要很⻓时间。不过，在这种情况下应该没问题，但在现实世界中，并不是只有三个参数，每个参数也不是只有⼗个值。⼤多数模型参数都是实数，不同参数的组合可以是⽆限的。

让我们看看 scikit-learn 的随机森林模型。

RandomForestClassifier(
    n_estimators=100,
    criterion='gini',
    max_depth=None,
    min_samples_split=2,
    min_samples_leaf=1,
    min_weight_fraction_leaf=0.0,
    max_features='auto',
    max_leaf_nodes=None,
    min_impurity_decrease=0.0,
    min_impurity_split=None,
    bootstrap=True,
    oob_score=False,
    n_jobs=None,
    random_state=None,
    verbose=0,
    warm_start=False,
    class_weight=None,
    ccp_alpha=0.0,
    max_samples=None,
    )

有 19 个参数，⽽所有这些参数的所有组合，以及它们可以承担的所有值，都将是⽆穷⽆尽的。通常情况下，我们没有⾜够的资源和时间来做这件事。因此，我们指定了⼀个参数⽹格。在这个⽹格上寻找最佳参数组合的搜索称为⽹格搜索。我们可以说，n_estimators 可以是 100、200、250、300、400、500；max_depth 可以是 1、2、5、7、11、15；criterion 可以是 gini 或 entropy。这些参数看起来并不多，但如果数据集过⼤，计算起来会耗费⼤量时间。我们可以像之前⼀样创建三个 for 循环，并在验证集上计算得分，这样就能实现⽹格搜索。还必须注意的是，如果要进⾏ k 折交叉验证，则需要更多的循环，这意味着需要更多的时间来找到完美的参数。因此，⽹格搜索并不流⾏。让我们以根据⼿机配置预测⼿机价格范围数据集为例，看看它是如何实现的。

图 1 ：⼿机配置预测⼿机价格范围数据集展⽰

训练集中只有 2000 个样本。我们可以轻松地使⽤分层 kfold 和准确率作为评估指标。我们将使⽤具有上述参数范围的随机森林模型，并在下⾯的⽰例中了解如何进⾏⽹格搜索。

# rf_grid_search.py
import numpy as np
import pandas as pd
from sklearn import ensemble
from sklearn import metrics
from sklearn import model_selection

if __name__ == "__main__":
    df = pd.read_csv("./input/mobile_train.csv")
    X = df.drop("price_range", axis=1).values
    y = df.price_range.values

    classifier = ensemble.RandomForestClassifier(n_jobs=-1)
    param_grid = {
        "n_estimators": [100, 200, 250, 300, 400, 500],
        "max_depth": [1, 2, 5, 7, 11, 15],
        "criterion": ["gini", "entropy"]
    }

    model = model_selection.GridSearchCV(
        estimator=classifier,
        param_grid=param_grid,
        scoring="accuracy",
        verbose=10,
        n_jobs=1,
        cv=5
    )

    model.fit(X, y)
    print(f"Best score: {model.best_score_}")
    print("Best parameters set:")
    best_parameters = model.best_estimator_.get_params()
    for param_name in sorted(param_grid.keys()):
        print(f"\t{param_name}: {best_parameters[param_name]}")

这⾥打印了很多内容，让我们看看最后⼏⾏。

[ CV ] criterion = entropy , max_depth = 15 , n_estimators = 500 , score = 0.895 ,

total = 1.0 s

[ CV ] criterion = entropy , max_depth = 15 , n_estimators = 500 ...............

[ CV ] criterion = entropy ,