机器学习基础与多层感知器详解
1. 数据类型与算法选择
在处理非结构化(文本)数据时,聚类(无监督)算法是首选。而对于其他非结构化(图像/语音)数据类型,建议使用人工神经网络算法进行分析。例如,卷积神经网络(CNN)用于图像识别,循环神经网络(RNN)用于语音识别和自然语言处理。训练数据集用于创建模型,测试数据集用于进行预测。为了获得更好的性能,深度学习(神经网络)模型比回归模型(机器学习模型)更受青睐,因为这些模型通过引入激活函数增加了一层非线性。
2. 模型评估
2.1 数据划分
为了正确评估模型,避免在整个数据集上进行训练至关重要。通常,70%的数据用于训练,30%用于测试。为了避免过拟合训练集,在评估模型时使用新数据很关键。然而,有时在构建模型时评估模型以确定最佳模型参数是有益的。但不能使用测试集进行此评估,否则可能会选择在测试数据上表现最佳的参数,而不是泛化能力最佳的参数。因此,会创建第三个数据子集,即验证集,用于在模型构建和调优过程中进行测试。常见的训练、验证和测试数据划分比例为60%用于训练,20%用于验证,20%用于测试。
2.2 分类指标
在进行分类预测时,有四种可能的结果:
1. 真正类(True Positive) :正确预测某个观察值属于某一类,且实际情况确实如此。
2. 真负类(True Negative) :预测某个观察值不属于某一类,且实际情况确实不属于该类。
3. 假正类(False Positive) :预测某个观察值属于某一类,但实
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



