多分类问题的方法与数据平衡问题解析
在多分类问题的研究中,有多种方法可供选择,这些方法各有特点和适用场景。同时,数据的平衡问题也对分类结果有着重要影响。接下来,我们将详细探讨这些内容。
1. k近邻法在多分类中的应用
在使用 regtools 包中的 knnest() 函数时,要求输入的 Y 是数值型的。而当数据中的 Y 是 R 因子时,我们可以借助 dummies 包来生成 m = 26 个虚拟变量。以下是具体的操作步骤:
xd <- preprocessx(lr[, -1], 50)
library(dummies)
y <- dummy(lr[, 1])
xd <- preprocessx(lr[, -1], 50)
kout <- knnest(y, xd, 50)
kout$regest 中存储了估计的类别概率。为了将这些概率转换为预测结果,我们可以使用 R 的 apply() 和 which.max() 函数,再通过 LETTERS 向量将结果转换回字符型:
tmp <- apply(kout$regest, 1, which
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



