用Rwordseg和jiebaR制作词云

本文介绍了如何利用R语言中的jiebaR和Rwordseg包进行中文文本分词,并制作词云。首先,通过jiebaR包对文本进行分词,然后过滤掉长度小于二的词语和数字,统计词频并排序,最后生成词云。接着,使用Rwordseg包进行分词,同样进行词频统计,最后制作词云。这两个包为R中处理中文文本提供了有效工具。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >



jiebaR包

*

library(RColorBrewer)
library(wordcloud2)
library(jiebaRD)
library(jiebaRD)
cutter=woker()
cutter[./2018年政府工作报告全文.txt]

分词

f=scan(“./2018年政府工作报告全文.segment.2018-05-17_17_51_44.txt”,sep=”\n”,what=” “,encoding=”UTF-8”)

读取分词好的文件

mydata=read.csv(“2018年政府工作报告全文.txt”,stringsAsFactors=FALSE,header=FALSE)
seg=qseg[f]

过滤掉字长小于二的词语

seg=seg[nchar(seg)>1]

统计词频

seg=table(seg)

过滤掉数字

seg=seg[!grepl(‘[0-9]+’,names(seg))]
length(seg)

排序

seg=sort(seg,decreasing = T)[1:200]

生成词云

wordcloud2(seg)

Rwordseg包

library(rJava)
library(Rwordseg)
library(wordcloud2)

分词

text=segmentCN(“D:/学习/R/work2/2018年政府工作报告全文.txt”,stringsAsFactors=FALSE,header=FALSE)

读入分词文件

text1=(“D:/学习/R/work2/2018年政府工作报告全文.segment.txt”,stringsfactors=FALSE,header=FALSE)

正则表达式按空格把词汇分开

word=lapply(X=text1,FUN=strsplit,”\s”) #返回一个list
word1=unlist(word)

统计词频

df=table(word1)
df=sort(df,decreasing=T)

把词汇词频存入数据框

df1=data.frame(word=names(df),freq=df)
dd=df[,2:3]

生成词云

wordcloud(dd)
结果显示

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值