机器学习文本分类算法:随机森林与K近邻的应用与比较
1. 随机森林文本分类算法
1.1 算法原理
随机森林(Random Forest,RF)的超参数与决策树或装袋分类器相同。它由多个单独的树组成,每棵树对给定数据集的整体分类进行投票,RF选择得票最多的分类。每棵决策树是从训练数据集的随机子集构建而成。
决策树算法通过将最有用的特征添加到树结构中,从一般搜索推进到对特征的特定搜索。在学习决策树的过程中,每个特征在搜索过程中被选中,由一个节点表示,每个节点代表一个特征的不同可能值之间的选择点,这个过程会重复进行,直到决策树能够解释所有训练示例。RF会随机选择观测值和特征来构建多个决策树,然后对结果进行平均。
RF算法文本分类器可以表示为:
[l(y) = \arg\max_C \left(\sum_{n = 1}^{N} I_{h_n(y)=c}\right)]
其中,(I)是指示函数,(h_n)是RF的第(n)棵树。
1.2 泛化误差估计
RF有一个内部机制来估计泛化误差,也称为袋外(Out-of-Bags,OOB)误差。在自助采样中,三分之二的原始数据案例用于构建每棵树,而三分之一的OOB数据实例从构建的树中进行分类并测试性能。OOB误差估计是对每个训练案例(y)仅使用在其自助采样中不包含(y)的树的平均预测误差。然后将训练数据集放入每棵树中,根据最终落在树的同一终端节点的案例对来计算训练数据之间的接近度矩阵,用于RF构建。
1.3 特征加权方法
为了减少大数据集中的误差,开发了一种使用RF分类器的特征加权方法,称为加权树RF(Weighting
超级会员免费看
订阅专栏 解锁全文
1289

被折叠的 条评论
为什么被折叠?



