R语言文本分析与模型验证
1. 利用已有模型进行测试集预测
我们可以使用刚刚创建的模型对测试集中的值进行预测,具体代码如下:
TestDF$classif = predict(model2, TestDF, type = "response")
TestDF$classif[TestDF$classif>0.5] = 1
TestDF$classif[TestDF$classif<=0.5] = 0
confusionMatrix(TestDF$quality, TestDF$classif)
从屏幕输出可以看到,测试数据集的预测效果比训练数据集要差。不过,准确率仍有0.72,不算太差,但kappa值降至0.45。我们可以尝试使用支持向量机(SVM)这种尚未使用过的算法,或许能得到更好的结果。
2. 支持向量机文档分类
支持向量机(SVM)试图在两类之间找到尽可能宽的分隔。然后根据样本在分隔中的位置进行分类。与逻辑回归不同,SVM不限于线性关系。实际上,通过使用核技巧,SVM可以发现任何类型的关系。下面我们直接使用SVM拟合模型并检查预测的可靠性:
library(e1071)
modelSVM = svm (quality ~ ., data = TrainDF)
probSVMtrain = predict(modelSVM, TrainDF[,-1])
classifSVMtrain = probSVMtrain
classifSVMtrain[classifSVMtrain&g
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



