机器学习与深度学习实践问答

76、一个节点的基尼不纯度通常比其父节点的低还是高?是通常低/高,还是总是低/高?

在决策树中,一个节点的 基尼不纯度 通常比其父节点低,但不是总是低。

决策树的构建过程通常是基于 贪心算法 ,在每一步选择能够最大程度降低不纯度的划分方式,所以一般情况下子节点的基尼不纯度会低于父节点。

然而,由于贪心算法并不一定能找到全局最优解,可能存在某些特殊情况,使得划分后的子节点基尼不纯度没有显著降低甚至升高,但这种情况相对较少。

77、如果在包含100万个实例的训练集上训练一棵决策树需要1小时,那么在包含1000万个实例的训练集上训练另一棵决策树大约需要多长时间?提示:考虑CART算法的计算复杂度。

一般而言,CART算法的计算复杂度为 $ O(n \cdot m \log m) $,其中:

  • $ n $ 为特征数量
  • $ m $ 为实例数量

若特征数量不变,实例数量变为原来的 10 倍,则训练时间大致为原来的 $ 10 \cdot \log(10) $ 倍,约为 23 小时
这只是一个估算结果。

78、如果在给定的训练集上训练一棵决策树需要一个小时,那么当特征数量翻倍时,大约需要多长时间?

一般来说,特征数量翻倍可能会使训练时间显著增加,但具体增加的时间难以精确估算,会受到多种因素影响,如:

  • 算法实现
  • 数据集规模等

79、如果你在完全相同的训练数据上训练了五个不同的模型,且它们的精度都达到了95%,是否有可能将这些模型组合起来以获得更好的结果?如果可以,如何操作?如果不可以,原因是什么?

是有可能通过组合这些模型获得更好结果的。可以采用集成学习的方法,如投票法(包括硬投票和软投票)、堆叠法等。

  • 投票法 :是让多个模型对样本进行预测,根据多数模型的预测结果确定最终输出;
  • 堆叠法 :是用一个新的模型对多个基础模型的输出进行学习和预测。

80、是否可以通过在多台服务器上分布训练来加速装袋集成的训练?粘贴集成、提升集成、随机森林或堆叠集成呢?

  • 装袋集成 粘贴集成 随机森林 由于各基学习器相互独立,可通过多服务器分布训练加速;
  • 提升集成 各基学习器有依赖关系,较难通过多服务器分布训练加速;
  • 堆叠集成 中不同层的训练也有一定顺序依赖,加速情况较复杂,但部分环节可并行。

81、如果你的 AdaBoost 集成模型对训练数据拟合不足,应该调整哪些超参数以及如何调整?

一般而言,可增加弱学习器数量,提高学习率,以增强模型复杂度和学习能力。

82、PCA 能否用于降低高度非线性数据集的维度?

PCA 通常不适用于高度非线性数据集,因为它是一种线性降维方法,主要用于处理线性可分的数据。对于高度非线性数据集,可能需要使用非线性降维方法,如 t-SNE、Isomap 等。

83、如何评估降维算法在你的数据集上的性能?

常见方法有计算重构误差、对比降维前后模型性能、检查保留的方差比例等。

84、加载MNIST数据集,并将其拆分为训练集和测试集(取前60,000个实例用于训练,其余10,000个用于测试)。在该数据集上训练一个随机森林分类器,并记录训练所需的时间,然后在测试集上评估得到的模型。接下来,使用主成分分析(PCA)将数据集的维度降低,使解释方差比

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值