R语言制作词云

本文介绍如何利用R语言的jiebaR包进行文本分词,并结合wordcloud2包生成词云。首先设置工作环境,读取文本文件,然后使用jiebaR的worker函数进行分词处理,加入自定义词库并过滤停用词。接着统计词频,保存到CSV文件,并展示前150高频词。最后,通过wordcloud2生成词云图。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

首先调用jiebaR包,通过rm()函数清空所有对象,确保一个干净的运行环境。之后使用setwd()函数设置工作路径,即文件所放置的文件夹。然后用scan()函数,从预设的report.txt文件中读取两会工作报告。调用jiebaR包里的worker()函数,构建一个名为myworker的分词器用于分析文本,类型设置为mix型,意为先用基于词典的最大概率模型mp分词,之后调用hmm把剩余可能成词的单字拿出来;每当遇到stopwords.txt文档中涉及到的词汇,就停止使用该词典;用user参数添加词库,将设置好的与两会相关的dictionary.txt中的专有名词添加进去。

接着,调用jiebaR包里的segment()函数,将myword作为一条中文语句放进来,myworker作为分词器。用nchar()函数返回字符长度,只取长度大于1的词语作为结果。之后用table()函数统计词频,用sort()函数按照词频将词语降序排列,并将频数结果写入excel文件result.csv,将result中频数最高的前150个在下方显示出来。

最后,使用wordcloud2包绘制云图,将频数最高的150个词在云图中显示出来。

代码:

library(jiebaR)                          

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值