简单的文本挖掘-用于QQ聊天记录(R)

本文利用R中的Rwordseg包分析QQ聊天记录,揭示了聊天中图片、表情的高频使用现象,以及一些意外出现的词汇,如"qq"、"com"等,并讨论了分词过程中可能遇到的问题和解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

平时的交流很多都在QQ上,QQ交流已经离不开日常的生活,这里我用R来分析QQ聊天记录,看看平时都聊了什么。

首先介绍下用的文本挖掘的包:Rwordseg  一个 R 环境下的中文分词工具,使用 rJava 调用 Java 分词工具 Ansj。  

该包需配合rJava包一起使用。详见李舰老师博客:http://jianl.org/

Rwordseg包不能直接install.packages("Rwordseg"),需使用下列代码

 

install.packages("Rwordseg", repos="http://R-Forge.R-project.org")

如果安装不成功,可以直接下载压缩包,然后安装:

 

必备包安装好,下面该导出QQ聊天记录了:

这里保存为txt格式

导出的txt,导入R的时候可能会时间很长或者出错,这里用notepad++打开txt,然后转为ANSI编码格式即可。

准备工作做好了,下面开始文本

 

 

library(rJava) 
li
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值