如何安全的做词云? jiebaR与wordcloud2实战

本文介绍了如何使用R语言的jiebaR和wordcloud2包进行文本分词和词云制作。通过分析中国世界500强企业的关键词,展示了如何从读取txt文件开始,进行分词、统计频率、过滤干扰词,最终绘制词云。重点讲解了jiebaR和wordcloud2的主要函数及参数,并提醒了在RStudio中处理中文编码的注意事项。

因为工作需要,又开始上手R语言。比起从前,现在面对新知识更有耐心(经历所致),也更愿意优化代码,提高效率。

网上制作词云的工具很多,但如果是公司比较重要的数据信息,我不建议用网上工具,会造成信息泄露。所以,不如花点时间,自己学会做,对提升数据分析也有帮助。

要做词云,有两件事情要做:1)文本分词;2)制作词云。

先说文本分词,主要用到jiebaR包,处理txt文本,变成关键词+频次的数据框形式,然后提取需要的高频词汇,使用wordcloud2包制作词云。

一、案例展示:

2021年中国世界500强企业,我想知道这些优秀企业有哪些关键字,怎么做出来呢?先给大家看最终的结果:

我们可以看到最突出的关键字:国际、科技股份,然后是上海,电力,能源,汽车,钢铁,银行。因为我们分析的是世界500强企业,所以可以得出结论:业务面向国际的企业,类型是科技股份制,然后从区域来看上海500强最多,其次是江苏(居然不是北京~),接下来行业电力(垄断行业,铁饭碗),能源(新趋势行业),汽车、钢铁。从这些关键字对大家择业赛道也会有所启发。

  1. 接下来如何做出这个图: 
install.packeges("jiebaR")#下载jiebaR包
install.packeges("wordcloud2")#下载词云包,推荐用词云2
library(jiebaR)#载入jiebaR包
library(wordcloud2)#载入词云2包
data<-readLines("企业名称.txt",encoding="UTF-8")#读入txt格式文本
wk<-worker()#设置函数简称
data1<-segment(data,wk)#开始
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据蜂鸟

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值