大家好,给大家分享一下python随机森林特征重要性,很多人还不知道这一点。下面详细解释一下。现在让我们来看看!
什么是随机森林
众所周知,树模型是高方差、低偏差的模型。因此,它们容易过度拟合训练数据火车头伪原创插件怎么用。如果我们不修剪树模型或引入早期停止标准(例如每个叶节点的最小实例数),我们可以概括一下树模型的作用,这很吸引人。好吧,它尝试沿着特征拆分数据,直到实例对于目标特征的值来说是纯的,没有剩下的数据,或者没有剩下的特征可以吐出数据集。如果上述之一成立,我们就会生长一个叶节点。结果是树模型增长到最大深度,并因此尝试尽可能精确地重塑训练数据,这很容易导致过度拟合。像(ID3 或 CART)这样的经典树模型的另一个缺点是它们相对不稳定。
例如,考虑使用分类缩放特征 *A* 作为“根节点特征”的情况。接下来,这个特征从数据集中被替换,不再存在于子树中。现在想象一下我们替换数据集中的单行的情况,这种变化导致现在特征 *B* 分别具有最大的信息增益或方差减少的情况。这意味着什么?好吧,现在特征 *B* 比特征 *A* 更受欢迎,因为它作为“根节点特征”会导致完全不同的树,因为我们改变了数据集中的一个实例。这种情况不仅可能发生在根节点上,也可能发生在树的所有内部节点上。
请注意,在上图中,建议将目标特征列中的“X”作为实际值的通配符。随机森林方