R语言制作词云

最新推荐文章于 2024-01-07 18:49:24 发布

weixin_57803390

最新推荐文章于 2024-01-07 18:49:24 发布

阅读量316

点赞数

文章标签： r语言开发语言

本文链接：https://blog.youkuaiyun.com/weixin_57803390/article/details/131364947

版权

本文介绍如何利用R语言的jiebaR包进行文本分词，并结合wordcloud2包生成词云。首先设置工作环境，读取文本文件，然后使用jiebaR的worker函数进行分词处理，加入自定义词库并过滤停用词。接着统计词频，保存到CSV文件，并展示前150高频词。最后，通过wordcloud2生成词云图。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

首先调用jiebaR包，通过rm()函数清空所有对象，确保一个干净的运行环境。之后使用setwd()函数设置工作路径，即文件所放置的文件夹。然后用scan()函数，从预设的report.txt文件中读取两会工作报告。调用jiebaR包里的worker()函数，构建一个名为myworker的分词器用于分析文本，类型设置为mix型，意为先用基于词典的最大概率模型mp分词，之后调用hmm把剩余可能成词的单字拿出来；每当遇到stopwords.txt文档中涉及到的词汇，就停止使用该词典；用user参数添加词库，将设置好的与两会相关的dictionary.txt中的专有名词添加进去。

接着，调用jiebaR包里的segment()函数，将myword作为一条中文语句放进来，myworker作为分词器。用nchar()函数返回字符长度，只取长度大于1的词语作为结果。之后用table()函数统计词频，用sort()函数按照词频将词语降序排列，并将频数结果写入excel文件result.csv，将result中频数最高的前150个在下方显示出来。

最后，使用wordcloud2包绘制云图，将频数最高的150个词在云图中显示出来。

代码：

library(jiebaR)