文本挖掘与R语言云部署实战
1. 文本挖掘基础操作
1.1 矩阵检查
在文本挖掘中,我们可以使用 inspect() 函数来检查矩阵。以下代码展示了如何查看文档 - 词项矩阵( dtm )的前七行和前五列:
> inspect(dtm[1:7, 1:5])
Terms
Docs abandon ability able abroad absolutely
2010 0 1 1 2 2
2011 1 0 4 3 0
2012 0 0 3 1 1
2013 0 3 3 2 1
2014 0 0 1 4 0
2015 1 0 1 1 0
2016 0 0 1 0 0
1.2 词干提取的思考
对于词干提取,我们需要谨慎使用。例如,“ability”和“able”可能会被合并为“abl”,但这样会丢失上下文信息,尤其是在初始分析阶段。因此,建议谨慎且有针对性地应用词干提取。
2. 建模与评估
2.1 建模的两个部分
建模分为两个不同
超级会员免费看
订阅专栏 解锁全文
680

被折叠的 条评论
为什么被折叠?



