用Rwordseg和jiebaR制作词云

最新推荐文章于 2021-04-28 21:15:50 发布

原创最新推荐文章于 2021-04-28 21:15:50 发布 · 524 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

R 专栏收录该内容

1 篇文章

订阅专栏

本文介绍了如何利用R语言中的jiebaR和Rwordseg包进行中文文本分词，并制作词云。首先，通过jiebaR包对文本进行分词，然后过滤掉长度小于二的词语和数字，统计词频并排序，最后生成词云。接着，使用Rwordseg包进行分词，同样进行词频统计，最后制作词云。这两个包为R中处理中文文本提供了有效工具。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

jiebaR包

*

library(RColorBrewer)
library(wordcloud2)
library(jiebaRD)
library(jiebaRD)
cutter=woker()
cutter[./2018年政府工作报告全文.txt]

分词

f=scan(“./2018年政府工作报告全文.segment.2018-05-17_17_51_44.txt”,sep=”\n”,what=” “,encoding=”UTF-8”)

读取分词好的文件

mydata=read.csv(“2018年政府工作报告全文.txt”,stringsAsFactors=FALSE,header=FALSE)
seg=qseg[f]

过滤掉字长小于二的词语

seg=seg[nchar(seg)>1]

统计词频

seg=table(seg)

过滤掉数字

seg=seg[!grepl(‘[0-9]+’,names(seg))]
length(seg)

排序

seg=sort(seg,decreasing = T)[1:200]

生成词云

wordcloud2(seg)

Rwordseg包

library(rJava)
library(Rwordseg)
library(wordcloud2)

分词

text=segmentCN(“D:/学习/R/work2/2018年政府工作报告全文.txt”,stringsAsFactors=FALSE,header=FALSE)

读入分词文件

text1=(“D:/学习/R/work2/2018年政府工作报告全文.segment.txt”,stringsfactors=FALSE,header=FALSE)

正则表达式按空格把词汇分开

word=lapply(X=text1,FUN=strsplit,”\s”) #返回一个list
word1=unlist(word)

统计词频

df=table(word1)
df=sort(df,decreasing=T)

把词汇词频存入数据框

df1=data.frame(word=names(df),freq=df)
dd=df[,2:3]

生成词云

wordcloud(dd)
结果显示

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。