基于朴素贝叶斯和决策树的文本分类方法
1. 数据代表性验证
在对短信数据进行分类之前,我们需要确认训练集和测试集是否能代表完整的短信数据。通过比较训练集和测试集中垃圾短信的比例,可以初步判断数据划分的合理性。
> prop.table(table(sms_train_labels))
ham spam
0.8647158 0.1352842
> prop.table(table(sms_test_labels))
ham spam
0.8683453 0.1316547
从输出结果可以看出,训练集和测试集中垃圾短信的比例都约为 13%,这表明垃圾短信在两个数据集中得到了均匀划分。
2. 文本数据可视化 - 词云
词云是一种直观展示文本数据中单词出现频率的方式。在 R 中,可以使用 wordcloud 包创建词云。以下是创建词云的具体步骤:
1. 安装并加载 wordcloud 包 :
install.packages("wordcloud")
library(wordcloud)
- 从
tm语料库对象创建词云 :
超级会员免费看
订阅专栏 解锁全文
1919

被折叠的 条评论
为什么被折叠?



