18、文本挖掘与R语言基础实战

文本挖掘与R语言实战

文本挖掘与R语言基础实战

1. 文本数据初步分析

在处理文本数据时,我们可以使用 inspect() 函数来查看矩阵。以下是查看矩阵前六行和前五列的示例:

inspect(dtm[1:6, 1:5])

输出结果如下表格所示:
| Docs | abl | abroad | absolut | abus | accept |
| ---- | ---- | ---- | ---- | ---- | ---- |
| 2010 | 1 | 2 | 2 | 1 | 1 |
| 2011 | 4 | 3 | 0 | 0 | 0 |
| 2012 | 3 | 1 | 1 | 1 | 0 |
| 2013 | 3 | 2 | 1 | 0 | 1 |
| 2014 | 1 | 4 | 0 | 0 | 0 |
| 2015 | 1 | 1 | 0 | 2 | 1 |

从这个矩阵可以看出,数据已经准备好进行分析,我们可以从词频统计开始。

2. 词频与主题模型分析
2.1 词频统计

在文档 - 词项矩阵设置好后,我们可以通过创建一个按降序排列的列和对象来探索词频。代码如下:

freq = colSums(as.matrix(dtm))
ord = order(-freq)

查看词频对象的头部和尾部:


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值