总结:中文分词 Rworseg包的应用

前面安装了Rwordseg包,这个包的工作方式:
“Rwordseg”在分词之前会去掉文本中所有的(中文)符号,这样就会造成原分开的句子前后相连,本来分开的两个字也许连在了一起。

另外一个中文分词包“jieba”分词包不会去掉任何符号,而且返回的结果里也会有符号。所有小文本准确性上可能”Rwordseg”会有误差。

Rwordseg分词原理:
Rwordseg是一个R环境下的中文分词工具,使用rjava调用java分词工具Ansj。

该分词算法有以下几个步骤:
1.全切分,原子切分;
2.N最短路径的粗切分,根据隐马尔科夫模型和viterbi算法,达到最优路径的规划;
3.人名识别;
4.系统词典补充;
5.用户自定义词典的补充;
6.词性标注。

影响分词效果的主要因素:分词词典的使用。

1.搜狗分词包

 从搜狗词库下载分词词典
 [搜狗下载官网](http://pinyin.sogou.com/dict/cate/index/101)
  不能直接将下载d的~.scel改为~.txt格式

 # 加载词典
 installDict("E:/wyeth/互联网.scel","internet",dicttype = "scel")  

installDict函数介绍
installDict(dictpath, dictname, dicttype = c(“text”,”scel”), load = TRUE)

2.自定义词典

可以自己设定哪些关键词,也可以删除已经加入词库的一些关键词。

#手动添加或删除词汇,仅在内存中临时添加,未记录下来

segmentCN(“过氧化苯酰胺少量抹在皮肤”)
[1] “过” “氧化” “苯” “酰” “胺” “少量抹” “在” “皮肤”
insertWords(“过氧化苯酰胺”)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值