关于软件分词的几个问题总结

本文详细介绍了文本分析的初步步骤,包括数据采集、分词及词性标注过程中的常见问题和解决方案。特别关注了如何解决rost分词系统与情感分析之间的兼容性问题,并分享了在实践中遇到的挑战与应对策略。

最近初学数据挖掘之文本分析,第一步还是尝试着熟悉一下大致的流程,

关于采集方面的总结请详参之前发的那篇《关于火车头网络爬虫的几个常见问题


第二步是分词,视频教程中有几点值得注意的地方是,

(1)在合并完多个评论文件后,记得用word文档实现空行(^p^p)到空白的替换,防止rost分词系统读到空行就分词结束了

(2)在停用词表更新后应该重新在rost里面打开,防止更新的词表不能被读取使用


实践中存在的问题如下,

(1)首先是,用rost分词后没有出现词性标注,虽然按照那个视频的道理来说是没有也能实现后面的情感分析,但是我实操是

并未成功,后来还是有个朋友说用中科院的ICTCLAS2015分词系统,才实现了词性标注,然后再用rost的情感分析才分析成功

(2)未词性标注前的分词多次后,出现了rost一分析就error(有一次停用词表没有设置之后就一直崩了),删除后再次解压使用

(3)实际采集样本火车头显示是200条,但是分析完是300+条,原因可能是由于id未分离,而采集的时候也未采集完200个id,

因此造成介于200至400之间的一个数据显示

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值