文本挖掘与R语言基础实战
1. 文本数据初步分析
在处理文本数据时,我们可以使用 inspect() 函数来查看矩阵。以下是查看矩阵前六行和前五列的示例:
inspect(dtm[1:6, 1:5])
输出结果如下表格所示:
| Docs | abl | abroad | absolut | abus | accept |
| ---- | ---- | ---- | ---- | ---- | ---- |
| 2010 | 1 | 2 | 2 | 1 | 1 |
| 2011 | 4 | 3 | 0 | 0 | 0 |
| 2012 | 3 | 1 | 1 | 1 | 0 |
| 2013 | 3 | 2 | 1 | 0 | 1 |
| 2014 | 1 | 4 | 0 | 0 | 0 |
| 2015 | 1 | 1 | 0 | 2 | 1 |
从这个矩阵可以看出,数据已经准备好进行分析,我们可以从词频统计开始。
2. 词频与主题模型分析
2.1 词频统计
在文档 - 词项矩阵设置好后,我们可以通过创建一个按降序排列的列和对象来探索词频。代码如下:
freq = colSums(as.matrix(dtm))
ord = order(-freq)
查看词频对象的头部和尾部:
文本挖掘与R语言实战
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



