37、硬投票分类器和软投票分类器有什么区别?
投票分类器
-
硬投票分类器 :通过聚合每个分类器的预测结果,选择获得最多票数的类别作为最终预测结果。
-
软投票分类器 :在所有分类器都能估计类别概率(即具备
predict_proba()方法)的前提下,计算所有单个分类器对各类别的平均概率,并选择平均概率最高的类别作为最终预测结果。
说明 :软投票通常比硬投票性能更高,因为它会给高置信度的投票更多权重。
38、是否可以通过将装袋集成(bagging ensemble)分布到多个服务器上来加快训练速度?粘贴集成(pasting ensembles)、提升集成(boosting ensembles)、随机森林(random forests)或堆叠集成(stacking ensembles)呢?
可以通过将装袋集成分布到多个服务器上来加快训练速度,因为集成中的每个预测器相互独立。出于同样的原因,粘贴集成和随机森林也可以。
然而,提升集成中的每个预测器是基于前一个预测器构建的,训练必须按顺序进行,将训练分布到多个服务器上不会有任何帮助。
对于堆叠集成,给定层中的所有预测器相互独立,因此可以在多个服务器上并行训练,但一层中的预测器只能在前一层的所有预测器训练完成后才能训练。
39、包外评估的好处是什么?
由于预测器在训练期间看不到包外(OOB)实例,因此可以在这些实例上对其进行评估,而无需单独的验证集或交叉验证。还可以通过对每个预测器的 OOB 评估求平均值来评估集成模型本身。
40、是什么让极度随机树(Extra - Trees)比普通随机森林更随机?这种额外的随机性有什么帮助?极度随机树比普通随机森林训练速度慢还是快?
- 极度随机树除了像随机森林在每个节点考虑特征的随机子集进行分裂外,还为每个特征使用随机阈值,而不是像普通决策树那样搜索最佳可能的阈值,这使其更随机。
- 这种额外的随机性用更高的偏差换取了更低的方差,通常能产生更好的整体模型。
- 极度随机树比普通随机森林训练速度快得多,因为在每个节点为每个特征找到最佳可能的阈值是生成树最耗时的任务之一,而极度随机树无需进行此操作。
41、如果你的梯度提升集成模型对训练集过拟合,你应该提高还是降低学习率?
应该降低学习率。将学习率设置为较低值(如 0.1 ),需要更多树来拟合训练集,但预测通常能更好地泛化,这是一种称为 收缩 的正则化技术。
42、降低数据集维度的主要动机是什么?主要缺点是什么?
主要动机
- 加快后续训练算法的速度(在某些情况下,甚至可以去除噪声和冗余特征,使训练算法表现更好)
- 可视化数据并深入了解最重要的特征
- 节省空间(压缩)
主要缺点
- 会丢失一些信息,可能会降低后续训练算法的性能
- 计算量可能很大
- 会增加机器学习流程的复杂性
- 转换后的特征通常难以解释
43、什么是维度灾难?
维度灾难
许多机器学习问题中,每个训练实例有数千甚至数百万个特征。这不仅使训练极其缓慢,还让找到好的解决方案变得更难,此问题常被称为 维度灾难 。
此外,高维空间中很多情况与低维不同:
- 如高维超立方体中,大多数点靠近边界;
- 高维数据集中,训练实例可能彼此距离远、数据稀疏;
- 新实例可能远离训练实例,导致预测不可靠;
- 且训练集维度越多,过拟合风险越大。
理论上可通过增加训练集大小来解决,但实际上,达到给定密度所需的训练实例数量随维度数呈指数增长。
44、一旦数据集的维度被降低,是否可以逆转这个操作?如果可以,如何进行?如果不可以,原因是什么?
使用讨论过的算法降低数据集维度后,几乎不可能完美逆转操作,因为降维过程中会丢失一些信息。不过,有些算法(如 PCA)有简单的逆变换程序,可以重建出与原始数据集相对相似的数据;而其他算法(如 t-SNE)则没有。
45、在哪些情况下你会使用普通PCA、增量PCA、随机PCA或核PCA?
普通PCA
默认选择,适用于数据集能放入内存的情况。
增量PCA
适用于数据集无法放入内存的大型数据集,也适用于需要实时处理新实例的在线任务。
随机PCA
适用于希望大幅降低维度且数据集能放入内存的情况。
核PCA
适用于处理非线性数据集。
46、创建计算图而不是直接执行计算的主要好处和缺点分别是什么?
主要好处:
- TensorFlow 可以自动为你计算梯度(使用反向模

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



