17、机器学习最佳实践指南

最新推荐文章于 2025-11-24 11:48:10 发布

cicd6pipeline

最新推荐文章于 2025-11-24 11:48:10 发布

阅读量17

点赞数

CC 4.0 BY-SA版权

分类专栏： Python机器学习实战精讲文章标签：机器学习最佳实践数据预处理

本文链接：https://blog.youkuaiyun.com/cicd6pipeline/article/details/154217244

Python机器学习实战精讲专栏收录该内容

17 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习最佳实践指南

在机器学习领域，要想构建出高效、准确的模型，需要遵循一系列最佳实践。这些实践涵盖了从数据预处理、特征工程、模型训练到部署和监控的各个阶段。下面将详细介绍这些最佳实践。

1. 数据预处理阶段

1.1 是否对分类特征进行编码

如果某个特征被认为是分类特征，需要决定是否对其进行编码。这取决于后续使用的预测算法。朴素贝叶斯和基于树的算法可以直接处理分类特征，而其他算法通常需要对分类特征进行编码。

1.2 是否进行特征选择以及如何选择

特征选择有诸多好处，比如：
- 减少预测模型的训练时间，因为消除了冗余或无关的特征。
- 减少过拟合。
- 可能提高性能，因为预测模型将从更有意义的特征数据中学习。

不过，特征选择不一定能绝对提高预测准确性，因此建议通过交叉验证比较进行特征选择和不进行特征选择的性能。以下是一个使用手写数字数据集的示例代码：

from sklearn.datasets import load_digits
from sklearn.svm import SVC
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
import numpy as np

# 加载手写数字数据集
dataset = load_digits()
X, y = dataset.data, dataset.target
print(X.shape)  # 输出数据集的形状

# 估计原始数据集的准确率
classifier = SVC(gamma=0.005)
score = cross_val_score(classifier, X, y).mean()
print('Score with the original data set: {0:.2f}'.format(score))

# 基于随机森林进行特征选择并排序
random_forest = RandomForestClassifier(n_estimators=100, criterion='gini', n_jobs=-1)
random_forest.fit(X, y)
feature_sorted = np.argsort(random_forest.feature_importances_)

# 选择不同数量的顶级特征构建新数据集并估计准确率
K = [10, 15, 25, 35, 45]
for k in K:
    top_K_features = feature_sorted[-k:]
    X_k_selected = X[:, top_K_features]
    classifier = SVC(gamma=0.005)
    score_k_features = cross_val_score(classifier, X_k_selected, y).mean()
    print('Score with the data set of top {0} features: {1:.2f}'.format(k, score_k_features))

1.3 是否进行降维以及如何降维

降维与特征选择有相似的优点：
- 减少预测模型的训练时间，因为将冗余或相关的特征合并为新特征。
- 减少过拟合。
- 可能提高性能，因为预测模型将从冗余或相关性较少的特征数据中学习。

同样，降维不一定能带来更好的预测结果，建议在模型训练阶段集成降维来检验其效果。以下是使用主成分分析（PCA）进行降维的示例代码：

from sklearn.decomposition import PCA

# 保留不同数量的顶级成分
N = [10, 15, 25, 35, 45]
for n in N:
    pca = PCA(n_components=n)
    X_n_kept = pca.fit_transform(X)
    classifier = SVC(gamma=0.005)
    score_n_components = cross_val_score(classifier, X_n_kept, y).mean()
    print('Score with the data set of top {0} components: {1:.2f}'.format(n, score_n_components))

1.4 是否对特征进行缩放

一般来说，朴素贝叶斯和基于树的算法对不同尺度的特征不敏感，因为它们独立看待每个特征。逻辑回归或线性回归通常不受输入特征尺度的影响，但当使用随机梯度下降优化权重时除外。大多数涉及样本距离（空间分离）的算法，如支持向量分类器（SVC）和支持向量回归（SVR），需要对输入特征进行缩放或标准化。使用随机梯度下降进行优化的算法也必须进行特征缩放。

2. 特征工程阶段

2.1 利用领域专业知识进行特征工程

如果拥有足够的领域知识，可以创建特定领域的特征。例如，在股票价格预测中，可以根据投资者在做出投资决策时通常考虑的因素来设计和构建特征集。在客户分析相关领域，一天中的时间、星期几和月份通常是重要的信号。

2.2 缺乏领域专业知识时进行特征工程

如果缺乏领域知识，也有一些通用的方法：
- 二值化 ：将数值特征转换为具有预设阈值的二进制特征。例如，在垃圾邮件检测中，对于“prize”特征，可以生成一个新特征表示“prize”是否出现。以下是使用 scikit-learn 实现二值化的代码：

from sklearn.preprocessing import Binarizer

X = [[4], [1], [3], [0]]
binarizer = Binarizer(threshold=2.9)
X_new = binarizer.fit_transform(X)
print(X_new)

离散化 ：将数值特征转换为具有有限可能值的分类特征。二值化可以看作是离散化的一种特殊情况。例如，可以根据年龄生成年龄组特征。
交互：包括对两个数值特征进行求和、乘法等操作，以及对两个分类特征进行联合条件检查。例如，可以根据每周访问次数和每周购买产品数量生成每次访问购买产品数量的特征。
多项式变换 ：生成多项式和交互特征。在 scikit-learn 中，可以使用 PolynomialFeatures 类进行多项式变换，示例代码如下：

from sklearn.preprocessing import PolynomialFeatures

X = [[2, 4],
     [1, 3],
     [3, 2],
     [0, 3]]
poly = PolynomialFeatures(degree=2)
X_new = poly.fit_transform(X)
print(X_new)

2.3 记录每个特征的生成方式

记录每个特征的生成方式很重要，因为在模型训练阶段的一些失败尝试后，可能需要回到这个阶段，尝试创建更多特征以提高性能。

3. 模型训练、评估和选择阶段

3.1 选择合适的算法开始

在选择算法时，需要考虑以下因素：
- 训练数据集的大小。
- 数据集的维度。
- 数据是否线性可分。
- 特征是否独立。
- 对偏差和方差的容忍度和权衡。
- 是否需要在线学习。

以下是几种常见算法的特点：
| 算法 | 特点 |
| ---- | ---- |
| 朴素贝叶斯 | 简单算法，对于相对较小的训练数据集，如果特征独立，通常表现良好。训练速度快，但可能导致高偏差。 |
| 逻辑回归 | 最广泛使用的分类算法，在数据线性可分或近似线性可分时表现良好。可通过添加正则化来减少过拟合。 |
| 支持向量机（SVM） | 能适应数据的线性可分性，对于高维数据集表现良好，但可能需要大量计算和内存。 |
| 随机森林（或决策树） | 不受数据线性可分性的影响，可直接处理分类特征，模型易于解释。 |
| 神经网络 | 功能强大，但找到合适的拓扑结构困难，训练和调优耗时。 |

3.2 减少过拟合

可以通过以下方法减少过拟合：
- 交叉验证。
- 正则化。
- 尽可能简化模型。
- 集成学习。

3.3 诊断过拟合和欠拟合

通常使用学习曲线来评估模型的偏差和方差。学习曲线是比较不同训练样本数量下交叉验证的训练和测试分数的图形。
- 当测试样本的性能收敛值与训练样本的性能相差很大时，可判断为过拟合。
- 当模型在训练样本上的表现都不佳时，可判断为欠拟合。

生成学习曲线可以使用 scikit-learn 的 learning_curve 包和 plot_learning_curve 函数。

下面是一个简单的流程图，展示了模型训练、评估和选择阶段的主要步骤：

graph LR
    A[选择合适的算法] --> B[训练模型]
    B --> C[评估模型]
    C --> D{是否过拟合或欠拟合}
    D -- 是 --> E[调整模型参数]
    E --> B
    D -- 否 --> F[选择最佳模型]

4. 部署和监控阶段

4.1 保存、加载和重用模型

在机器学习部署时，新数据应经过与之前阶段相同的数据预处理程序，然后输入到训练好的模型中。为了避免每次有新数据都重新运行整个过程和重新训练模型，应该在相应阶段完成后保存已建立的预处理模型和训练好的预测模型。以下是一个使用糖尿病数据集的示例代码：

from sklearn.datasets import load_diabetes
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVR
import pickle

# 加载糖尿病数据集
dataset = load_diabetes()
X, y = dataset.data, dataset.target
num_new = 30  # 最后30个样本作为新数据集
X_train = X[:-num_new, :]
y_train = y[:-num_new]
X_new = X[-num_new:, :]
y_new = y[-num_new:]

# 对训练数据进行缩放预处理
scaler = StandardScaler()
scaler.fit(X_train)

# 保存标准化器
pickle.dump(scaler, open("scaler.p", "wb"))

# 在缩放后的数据上训练SVR模型
X_scaled_train = scaler.transform(X_train)
regressor = SVR(C=20)
regressor.fit(X_scaled_train, y_train)

# 保存训练好的回归器
pickle.dump(regressor, open("regressor.p", "wb"))

# 在部署阶段加载保存的模型
my_scaler = pickle.load(open("scaler.p", "rb"))
my_regressor = pickle.load(open("regressor.p", "rb"))

# 对新数据进行预处理并进行预测
X_scaled_new = my_scaler.transform(X_new)
predictions = my_regressor.predict(X_scaled_new)

4.2 监控模型性能

为确保机器学习系统正常运行，需要定期检查模型性能。除了实时进行预测外，还应同时记录真实值。可以使用 r2_score 评估模型性能，并记录性能指标，设置性能下降的警报。示例代码如下：

from sklearn.metrics import r2_score

print('Health check on the model, R^2: {0:.3f}'.format(r2_score(y_new, predictions)))

4.3 定期更新模型

如果模型性能变差，可能是数据模式发生了变化。可以根据模型是否支持在线学习，选择使用新数据更新模型（在线更新）或使用最新数据重新训练模型。

综上所述，遵循这些最佳实践可以帮助我们构建更高效、准确的机器学习模型，并确保模型在实际应用中保持良好的性能。

5. 各阶段最佳实践总结与对比

5.1 数据预处理阶段实践总结

实践内容	作用	适用算法	操作步骤
分类特征编码	根据后续算法决定是否编码分类特征，使算法能处理分类数据	非朴素贝叶斯和非树基算法通常需要	分析后续使用的算法，若不支持分类特征则进行编码
特征选择	减少训练时间、降低过拟合、可能提高性能	各类算法	1. 选择合适的特征选择方法（如随机森林）；2. 对特征重要性排序；3. 选择不同数量顶级特征构建新数据集并评估性能
降维	减少训练时间、降低过拟合、可能提高性能	各类算法	1. 选择降维方法（如PCA）；2. 保留不同数量顶级成分构建新数据集并评估性能
特征缩放	使某些算法能正常工作	SVC、SVR、使用随机梯度下降优化的算法	使用标准化或缩放方法处理特征

5.2 特征工程阶段实践总结

实践内容	适用情况	操作方法
利用领域专业知识	拥有足够领域知识	根据领域知识和业务经验，从数据中提取与预测目标相关的特征
缺乏领域知识时的通用方法	缺乏领域知识	可采用二值化、离散化、交互、多项式变换等方法生成新特征
记录特征生成方式	所有情况	详细记录每个特征的生成过程和依据

5.3 模型训练、评估和选择阶段实践总结

实践内容	关键因素	操作要点
选择合适算法	训练数据集大小、维度、线性可分性、特征独立性、偏差方差权衡、是否需要在线学习	根据上述因素综合考虑，选择朴素贝叶斯、逻辑回归、SVM、随机森林、神经网络等算法
减少过拟合	模型复杂度、数据特性	采用交叉验证、正则化、简化模型、集成学习等方法
诊断过拟合和欠拟合	训练和测试样本性能	使用学习曲线评估，根据曲线特征判断过拟合或欠拟合

5.4 部署和监控阶段实践总结

实践内容	目的	操作步骤
保存、加载和重用模型	避免重复训练，提高效率	1. 保存预处理模型和预测模型；2. 在部署时加载模型并对新数据进行处理和预测
监控模型性能	确保模型正常运行	1. 实时预测并记录真实值；2. 使用评估指标（如r2_score）评估性能；3. 设置性能下降警报
定期更新模型	适应数据模式变化	根据模型是否支持在线学习，选择在线更新或重新训练模型

下面是一个mermaid格式流程图，展示整个机器学习流程：

graph LR
    A[数据预处理] --> B[特征工程]
    B --> C[模型训练、评估和选择]
    C --> D[部署和监控]
    D --> E{性能是否下降}
    E -- 是 --> A
    E -- 否 --> D

6. 实际应用中的注意事项

6.1 数据质量

在整个机器学习过程中，数据质量至关重要。数据中的噪声、缺失值、异常值等都会影响模型的性能。在数据预处理阶段，需要对数据进行清洗和预处理，如处理缺失值（可采用删除、填充等方法）、去除异常值（可使用统计方法或基于模型的方法）。

6.2 算法选择的灵活性

虽然前面给出了选择算法的一些指导原则，但在实际应用中，可能需要尝试多种算法并进行比较。不同的数据集和问题可能适合不同的算法，不能仅仅局限于某一种算法。例如，对于一个复杂的图像分类问题，可能一开始选择神经网络效果不佳，此时可以尝试SVM等其他算法。

6.3 模型调优

模型调优是一个持续的过程。在模型训练阶段，需要对算法的参数进行调优，以达到最佳性能。可以使用网格搜索、随机搜索等方法来寻找最优参数组合。同时，在监控模型性能时，如果发现性能下降，也需要重新进行模型调优。

6.4 可解释性

在一些应用场景中，模型的可解释性非常重要。例如，在医疗诊断、金融风险评估等领域，需要能够解释模型的决策过程。随机森林和决策树等算法具有较好的可解释性，而神经网络等复杂模型的可解释性较差。在选择算法时，需要根据具体应用场景考虑模型的可解释性。

7. 总结

机器学习是一个复杂的过程，涉及数据预处理、特征工程、模型训练、部署和监控等多个阶段。每个阶段都有其最佳实践，遵循这些实践可以帮助我们构建更高效、准确的机器学习模型。在实际应用中，需要根据具体问题和数据集的特点，灵活选择和应用这些实践，同时注意数据质量、算法选择的灵活性、模型调优等问题。通过不断地实践和优化，我们可以提高机器学习模型的性能，使其更好地服务于实际应用。

下面是一个简单的列表，总结机器学习各阶段的核心要点：
1. 数据预处理：确保数据适合后续处理，进行特征编码、选择、降维、缩放等操作。
2. 特征工程：利用领域知识或通用方法生成有价值的特征。
3. 模型训练、评估和选择：选择合适的算法，减少过拟合，诊断模型状态。
4. 部署和监控：保存和重用模型，监控性能并定期更新。

通过对这些要点的把握和实践，我们能够在机器学习领域取得更好的成果。