19、R语言文本分析与模型验证-优快云博客

本文链接：https://blog.youkuaiyun.com/b0c1d2/article/details/151467548

R语言文本分析与模型验证

1. 利用已有模型进行测试集预测

我们可以使用刚刚创建的模型对测试集中的值进行预测，具体代码如下：

TestDF$classif = predict(model2, TestDF, type = "response")
TestDF$classif[TestDF$classif>0.5] = 1
TestDF$classif[TestDF$classif<=0.5] = 0
confusionMatrix(TestDF$quality, TestDF$classif)

从屏幕输出可以看到，测试数据集的预测效果比训练数据集要差。不过，准确率仍有0.72，不算太差，但kappa值降至0.45。我们可以尝试使用支持向量机（SVM）这种尚未使用过的算法，或许能得到更好的结果。

2. 支持向量机文档分类

支持向量机（SVM）试图在两类之间找到尽可能宽的分隔。然后根据样本在分隔中的位置进行分类。与逻辑回归不同，SVM不限于线性关系。实际上，通过使用核技巧，SVM可以发现任何类型的关系。下面我们直接使用SVM拟合模型并检查预测的可靠性：

library(e1071)
modelSVM = svm (quality ~ ., data = TrainDF)
probSVMtrain = predict(modelSVM, TrainDF[,-1])
classifSVMtrain = probSVMtrain
classifSVMtrain[classifSVMtrain&g