机器学习与深度学习实践问答

最新推荐文章于 2025-11-24 11:51:29 发布

原创

最新推荐文章于 2025-11-24 11:51:29 发布 · 980 阅读

·

7

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 # 深度学习 # 决策树

76、一个节点的基尼不纯度通常比其父节点的低还是高？是通常低/高，还是总是低/高？

在决策树中，一个节点的 基尼不纯度 通常比其父节点低，但不是总是低。

决策树的构建过程通常是基于 贪心算法 ，在每一步选择能够最大程度降低不纯度的划分方式，所以一般情况下子节点的基尼不纯度会低于父节点。

然而，由于贪心算法并不一定能找到全局最优解，可能存在某些特殊情况，使得划分后的子节点基尼不纯度没有显著降低甚至升高，但这种情况相对较少。

77、如果在包含100万个实例的训练集上训练一棵决策树需要1小时，那么在包含1000万个实例的训练集上训练另一棵决策树大约需要多长时间？提示：考虑CART算法的计算复杂度。

一般而言，CART算法的计算复杂度为 $ O(n \cdot m \log m) $，其中：

$ n $ 为特征数量
$ m $ 为实例数量

若特征数量不变，实例数量变为原来的 10 倍，则训练时间大致为原来的 $ 10 \cdot \log(10) $ 倍，约为 23 小时 。
这只是一个估算结果。

78、如果在给定的训练集上训练一棵决策树需要一个小时，那么当特征数量翻倍时，大约需要多长时间？

一般来说，特征数量翻倍可能会使训练时间显著增加，但具体增加的时间难以精确估算，会受到多种因素影响，如：

算法实现
数据集规模等

79、如果你在完全相同的训练数据上训练了五个不同的模型，且它们的精度都达到了95%，是否有可能将这些模型组合起来以获得更好的结果？如果可以，如何操作？如果不可以，原因是什么？

是有可能通过组合这些模型获得更好结果的。可以采用集成学习的方法，如投票法（包括硬投票和软投票）、堆叠法等。

投票法 ：是让多个模型对样本进行预测，根据多数模型的预测结果确定最终输出；
堆叠法 ：是用一个新的模型对多个基础模型的输出进行学习和预测。

80、是否可以通过在多台服务器上分布训练来加速装袋集成的训练？粘贴集成、提升集成、随机森林或堆叠集成呢？

装袋集成 、 粘贴集成 、 随机森林 由于各基学习器相互独立，可通过多服务器分布训练加速；
提升集成 各基学习器有依赖关系，较难通过多服务器分布训练加速；
堆叠集成 中不同层的训练也有一定顺序依赖，加速情况较复杂，但部分环节可并行。

81、如果你的 AdaBoost 集成模型对训练数据拟合不足，应该调整哪些超参数以及如何调整？

一般而言，可增加弱学习器数量，提高学习率，以增强模型复杂度和学习能力。

82、PCA 能否用于降低高度非线性数据集的维度？

PCA 通常不适用于高度非线性数据集，因为它是一种线性降维方法，主要用于处理线性可分的数据。对于高度非线性数据集，可能需要使用非线性降维方法，如 t-SNE、Isomap 等。

83、如何评估降维算法在你的数据集上的性能？

常见方法有计算重构误差、对比降维前后模型性能、检查保留的方差比例等。

84、加载MNIST数据集，并将其拆分为训练集和测试集（取前60,000个实例用于训练，其余10,000个用于测试）。在该数据集上训练一个随机森林分类器，并记录训练所需的时间，然后在测试集上评估得到的模型。接下来，使用主成分分析（PCA）将数据集的维度降低，使解释方差比

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。