76、一个节点的基尼不纯度通常比其父节点的低还是高?是通常低/高,还是总是低/高?
在决策树中,一个节点的 基尼不纯度 通常比其父节点低,但不是总是低。
决策树的构建过程通常是基于 贪心算法 ,在每一步选择能够最大程度降低不纯度的划分方式,所以一般情况下子节点的基尼不纯度会低于父节点。
然而,由于贪心算法并不一定能找到全局最优解,可能存在某些特殊情况,使得划分后的子节点基尼不纯度没有显著降低甚至升高,但这种情况相对较少。
77、如果在包含100万个实例的训练集上训练一棵决策树需要1小时,那么在包含1000万个实例的训练集上训练另一棵决策树大约需要多长时间?提示:考虑CART算法的计算复杂度。
一般而言,CART算法的计算复杂度为 $ O(n \cdot m \log m) $,其中:
- $ n $ 为特征数量
- $ m $ 为实例数量
若特征数量不变,实例数量变为原来的 10 倍,则训练时间大致为原来的 $ 10 \cdot \log(10) $ 倍,约为 23 小时 。
这只是一个估算结果。
78、如果在给定的训练集上训练一棵决策树需要一个小时,那么当特征数量翻倍时,大约需要多长时间?
一般来说,特征数量翻倍可能会使训练时间显著增加,但具体增加的时间难以精确估算,会受到多种因素影响,如:
- 算法实现
- 数据集规模等
79、如果你在完全相同的训练数据上训练了五个不同的模型,且它们的精度都达到了95%,是否有可能将这些模型组合起来以获得更好的结果?如果可以,如何操作?如果不可以,原因是什么?
是有可能通过组合这些模型获得更好结果的。可以采用集成学习的方法,如投票法(包括硬投票和软投票)、堆叠法等。
- 投票法 :是让多个模型对样本进行预测,根据多数模型的预测结果确定最终输出;
- 堆叠法 :是用一个新的模型对多个基础模型的输出进行学习和预测。
80、是否可以通过在多台服务器上分布训练来加速装袋集成的训练?粘贴集成、提升集成、随机森林或堆叠集成呢?
- 装袋集成 、 粘贴集成 、 随机森林 由于各基学习器相互独立,可通过多服务器分布训练加速;
- 提升集成 各基学习器有依赖关系,较难通过多服务器分布训练加速;
- 堆叠集成 中不同层的训练也有一定顺序依赖,加速情况较复杂,但部分环节可并行。
81、如果你的 AdaBoost 集成模型对训练数据拟合不足,应该调整哪些超参数以及如何调整?
一般而言,可增加弱学习器数量,提高学习率,以增强模型复杂度和学习能力。
82、PCA 能否用于降低高度非线性数据集的维度?
PCA 通常不适用于高度非线性数据集,因为它是一种线性降维方法,主要用于处理线性可分的数据。对于高度非线性数据集,可能需要使用非线性降维方法,如 t-SNE、Isomap 等。
83、如何评估降维算法在你的数据集上的性能?
常见方法有计算重构误差、对比降维前后模型性能、检查保留的方差比例等。

最低0.47元/天 解锁文章
1701

被折叠的 条评论
为什么被折叠?



