
R语言
文章平均质量分 95
xz_4321
人生不是百米赛跑,而是马拉松~
展开
-
R语言实现文字时间堆叠图(主要用于文本挖掘)
文字时间堆叠图是自己乱瞎叫的名字,我也不知道这个图叫啥,但是它相较于词云图来说,优点是在于以时间为横轴,中文词频频数为纵轴的一种呈现形式,这样可以看出在某某时间某些词的关注度较高,同时可以跟其他时间段的作比较,适合由于新闻评论数据等有时间趋势的文本可视化中,此处使用ggplot2包实现可视化。 话不多说,直接上思路及代码。主要思路:一般文本分词主要为4步: 第一步:就是一些正则匹配去掉脏字符,符号原创 2016-10-10 18:35:58 · 1931 阅读 · 2 评论 -
R语言编程实现批量化处理非结构化的QQ聊天记录(优化版)
昨天天朗气清,惠风和畅,突然跟群友聊天,说到QQ群聊天记录的事,正好手边有时间,立刻导出QQ的群消息聊天记录,打算分析一下,然并卵……腾讯对QQ聊天记录不知道是按啥规则保存,反正就是标准的非格式化数据,根本不能直接分析,在前期还得做很多处理,那么问题来了,第一:怎么弄成结构化的数据呢?这句就是废话。好吧。的确是。。。第二:那就这么弄吧?那就往下看吧~主要思路分析下面就是主要思路: 首先观察数据,这原创 2016-10-14 11:00:33 · 3051 阅读 · 5 评论