45、包外评估的好处是什么?
由于预测器在训练期间从未见过包外(OOB)实例,因此可以在这些实例上对其进行评估,而无需单独的验证集。还可以通过对每个预测器的 OOB 评估结果求平均值来评估整个集成模型。
46、是什么让极端随机树(Extra - Trees)比普通随机森林更随机?这种额外的随机性有什么帮助?极端随机树比普通随机森林慢还是快?
极端随机树的特点
极端随机树在每个节点分裂时,不仅像随机森林一样考虑特征的随机子集,还使用随机阈值,而不是像普通决策树那样搜索最佳阈值,这使其更随机。
这种额外的随机性起到了正则化的作用,如果随机森林过拟合训练数据,极端随机树可能表现更好。
极端随机树训练速度比普通随机森林快,但在进行预测时,两者速度没有明显差异。
47、如果你的 AdaBoost 集成模型对训练数据欠拟合,应该调整哪些超参数以及如何调整?
可以尝试增加估计器的数量、减少基估计器的正则化超参数,也可以稍微提高学习率。
48、如果你的梯度提升集成模型对训练集过拟合,你应该提高还是降低学习率?
应该降低学习率。
49、降低数据集维度的主要动机是什么?主要缺点是什么?
主要动机与缺点
主要动机
- 加快后续训练算法的速度(有时可去除噪声和冗余特征,使训练算法表现更好)
- 可视化数据并深入了解最重要的特征
- 节省空间(压缩)
主要缺点
- 会丢失一些信息,可能降低后续训练算法的性能
- 计算量可能很大
- 会增加机器学习流程的复杂度
- 转换后的特征通常难以解释
50、什么是维度诅咒?
维度诅咒
维度诅咒指的是许多在低维空间中不存在的问题在高维空间中会出现。
在机器学习中,一个常见表现是随机采样的高维向量通常非常稀疏,这增加了过拟合的风险,并且在没有大量训练数据的情况下很难识别数据中的模式。
51、一旦数据集的维度被降低,是否可以逆转该操作?如果可以,如何操作?如果不可以,原因是什么?
使用讨论过的算法降低数据集维度后,几乎不可能完美逆转操作,因为降维过程中会丢失一些信息。此外,有些算法(如 PCA)有简单的逆变换程序,能重建出与原始数据集相对相似的数据集,但其他算法(如 T-SNE)则没有。
52、PCA 能否用于降低高度非线性数据集的维度?
可以。PCA 可显著降低大多数数据集的维度,即使是高度非线性的数据集,因为它至少能去除无用的维度。不过,如果数据集中没有无用维度,如瑞士卷数据集,使用 PCA 降低维度会丢失过多信息。
53、在哪些情况下你会使用普通PCA、增量PCA、随机PCA或核PCA?
普通PCA适用于数据集较小,能全部加载到内存中时。
增量PCA适用于处理大型训练集,或需要在线应用PCA(即新实例到来时实时处理)的场景,它允许将训练集拆分为小批量进行处理。
随机PCA适用于样本数m或特征数n大于500,且主成分数d小于m或n的80%的情况,可自动使用随机算法;若要强制使用完整SVD方法,可将`svd_solver`超参数设为“full”。
核PCA适用于需要进行复杂非线性投影以降维的场景,它能在投影后较好地保留实例的簇结构,或展开靠近扭曲流形的数据集。
54、如何评估降维算法在数据集上的性能?
可以通过在降维后的数据集上运行一个机器学习算法,并将其性能与在原始数据集上运行同一算法的性能进行比较。如果降维没有损失太多信息,那么该算法的性能应与使用原始数据集时一样好。
55、将两种不同的降维算法串联起来有意义吗?
有意义。常见的做法是先用主成分分析(PCA)快速去除大量无用维度,再应用另一种速度慢得多的降维算法,如局部线性嵌入(LLE)。这种两步法可能会产生与仅使用LLE相同的性能,但耗时会大幅减少。
56、使用t - SNE将MNIST数据集降维到二维,并使用Matplotlib绘制结果。你可以使用散点图,用10种不同的颜色来表示每个图像的目标类别。或者,你可以用相应实例的类别(0到9的数字)替换散点图中的每个点,甚至可以绘制数字图像的缩小版本(如果你绘制所有数字,可视化效果会过于杂乱,所以你应该要么随机抽样,要么仅在近距离内没有其他实例已经绘制的情况下绘制一个实例)。你应该能得到一个数字聚类良好分离的漂亮可视化效果。尝试使用其他降维算法,如PCA、LLE或MDS,并比较得到的可视化效果。
对于使用 t-SNE 将 MNIST 数据集降维到二维并绘制结果,可按以下步骤操作:先使用 t-SNE 算法对 MNIST 数据集进行降维,再用 Matplotlib 绘制散点图,用 10 种颜色区分不同目标类别。也可将散点替换为对应类别数字或绘制缩小版数字图像,为避免杂乱,可随机抽样或仅在近距离无其他

最低0.47元/天 解锁文章
3326

被折叠的 条评论
为什么被折叠?



