3、机器学习基础与多层感知器详解-优快云博客

本文链接：https://blog.youkuaiyun.com/nginx7reverse/article/details/152428674

机器学习基础与多层感知器详解

1. 数据类型与算法选择

在处理非结构化（文本）数据时，聚类（无监督）算法是首选。而对于其他非结构化（图像/语音）数据类型，建议使用人工神经网络算法进行分析。例如，卷积神经网络（CNN）用于图像识别，循环神经网络（RNN）用于语音识别和自然语言处理。训练数据集用于创建模型，测试数据集用于进行预测。为了获得更好的性能，深度学习（神经网络）模型比回归模型（机器学习模型）更受青睐，因为这些模型通过引入激活函数增加了一层非线性。

2. 模型评估

2.1 数据划分

为了正确评估模型，避免在整个数据集上进行训练至关重要。通常，70%的数据用于训练，30%用于测试。为了避免过拟合训练集，在评估模型时使用新数据很关键。然而，有时在构建模型时评估模型以确定最佳模型参数是有益的。但不能使用测试集进行此评估，否则可能会选择在测试数据上表现最佳的参数，而不是泛化能力最佳的参数。因此，会创建第三个数据子集，即验证集，用于在模型构建和调优过程中进行测试。常见的训练、验证和测试数据划分比例为60%用于训练，20%用于验证，20%用于测试。

2.2 分类指标

在进行分类预测时，有四种可能的结果：
1. 真正类（True Positive） ：正确预测某个观察值属于某一类，且实际情况确实如此。
2. 真负类（True Negative） ：预测某个观察值不属于某一类，且实际情况确实不属于该类。
3. 假正类（False Positive） ：预测某个观察值属于某一类，但实