机器学习基本方法-优快云博客

【机器学习基本方法：模型评估与模型参数选择】
一、模型评估的重要性
1.定义：模型评估是通过特定的指标和方法，来判断模型在给定任务上的表现和预测能力。
2.目的：确保模型不仅在训练数据上表现良好，更重要的是在未见过的数据上（测试集）也能保持优秀的泛化能力。
二、评估指标
1.分类任务
1.准确率（Accuracy）：正确分类的样本数占总样本数的比例。
2.精确率（Precision）：预测为正的样本中真正为正的比率。
3.召回率（Recall）：实际为正的样本中被预测为正的比率。
4.F1分数：精确率和召回率的加权平均值，适用于不平衡数据集。
2.回归任务
1.均方误差（MSE）：预测值与真实值之差的平方的均值。
2.均方根误差（RMSE）：MSE的平方根。
3.平均绝对误差（MAE）：预测值与真实值之差的绝对值的均值。
三、模型参数选择
1.定义：模型参数选择是通过调整模型的超参数，来优化模型在验证集上的表现。
2.方法
1.网格搜索（Grid Search）：在预定义的超参数范围内，系统地搜索所有可能的组合。
2.随机搜索（Random Search）：在超参数空间中随机选择参数进行评估，效率高于网格搜索。
3.贝叶斯优化（Bayesian Optimization）：使用概率模型来指导超参数的搜索过程，更高效。
四、交叉验证（Cross Validation）
1.定义：将数据集划分为k个子集，轮流将其中一个子集作为测试集，其余作为训练集，进行k次训练和测试。
2.目的：减少数据集划分的随机性对评估结果的影响，提高模型评估的可靠性。
五、案例分析
1.案例1：使用交叉验证和网格搜索优化决策树模型的深度。
2.案例2：通过F1分数调整支持向量机（SVM）模型的C和gamma参数。

【机器学习基本方法：监督学习】
一、监督学习概述
1.定义：在有标记的训练数据集上训练模型，以预测新数据的标签。
2.目标：学习输入特征与输出标签之间的映射关系。
二、监督学习类型
1.分类：预测离散的类别标签。
2.回归：预测连续的数值。
三、常见监督学习算法
1.线性回归（Linear Regression）
1.用于回归任务，假设输出与输入特征之间存在线性关系。
2.逻辑回归（Logistic Regression）
1.用于分类任务，尽管名字中有“回归”，实际上是分类算法，通过Sigmoid函数转换预测值。
3.支持向量机（SVM）
1.找到数据点之间的最大间隔超平面，适用于高维数据的分类。
4.决策树（Decision Tree）
1.通过一系列的问题来做出决策，可以处理分类和回归任务。
5.随机森林（Random Forest）
1.集成学习方法，通过构建多个决策树并汇总预测结果。
四、特征选择与处理
1.特征选择：减少输入特征的数量，避免过拟合，减少计算复杂度。
2.特征工程：创建新的特征，以增强模型的预测能力。
五、模型训练与评估
1.数据划分：将数据集划分为训练集、验证集和测试集。
2.评估指标
1.对于分类任务：准确率、精确率、召回率、F1分数。
2.对于回归任务：均方误差（MSE）、均方根误差（RMSE）、平均绝对误差（MAE）。
六、案例分析
1.手写数字识别：使用MNIST数据集，尝试不同的监督学习算法，比较模型的准确率和训练时间。
七、监督学习的挑战
1.过拟合与欠拟合：平衡模型复杂度与数据拟合能力。
2.数据不平衡：正负样本数量差异大，影响模型性能。
通过本章节的学习，我们理解了监督学习的基本