R语言——jiebaR基础

这篇博客介绍了R语言中jiebaR包的使用,包括如何构建分词器worker,分词函数segment,添加用户词典new_user_word,以及分词后的标记和关键词提取功能。示例展示了对文件进行分词,保留标点符号,词频统计,海明距离计算等功能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、jiebaR中的函数介绍(很大一部分参照jiebaR官方文档:qinwenfeng.com/jiebaR/)
**No.1**
worker(type = "mix", dict = DICTPATH, hmm = HMMPATH, user = USERPATH,idf = IDFPATH,
stop_word = STOPPATH, write = T, qmax = 20, topn = 5,encoding = "UTF-8", detect = T,
symbol = F, lines = 1e+05,output = NULL, bylines = F, user_weight = "max")
worker()函数的作用是构建一个分词器,通常在分析文本的时候,需要首先构建分词器。

#构建分词器的语句如下,不添加任何参数的话,使用函数中默认的参数
>分词器=worker()

worker()函数的各参数介绍如下:
(1)type(mix):分词模型,有好几个可选项
[1]mp 基于词典的最大概率模型
[2]hmm 基于HMM模型,可以发现词典中没有的词
[3]mix 混合模型,先用mp分词,分完以后调用hmm把剩余的可能成词的单字拿出来
[4]query 索引模型,对大于一定长度的词再进行一次切分
[5]tag 标记模型,基于用户词典的词性标注
[6]keywords 关键词模型,TF-IDF抽去关键词
[7]simhash Simhash模型,在关键词的基础上计算simhash

(2)dict(DICTPATH):系统词典,默认路径为jiebaR::DICTPATH,文件名为jieba.dict.utf8
系统词典的默认数据结构为三列:词语、词频、词性
>readLines(jiebaR::DICTPATH,5,encoding = "UTF-8")
[1] "1号店 3 n" "1號店 3 n" "4S店 3 n" "4s店 3 n" "AA制 3 n"

(3)hmm(HMMPATH):HMM词典,默认jiebaR::HMMPATH

(4)user(USERPATH):用户词典,默认jiebaR::USERPATH

(5)idf(IDFPATH):IDF词典,默认jiebaR::IDFPATH

(6)stop_word(STOPPATH):停用此词典,默认STOPPATH

(7)write(T):是否写入文件,默认为T
只在输入内容为文件路径时,本参数才会被使用。本参数只对分词和词性标注有效。

(8)qmax(20):索引模型中,最大可能成词的字符数,默认20

(9)topn(5):提取的关键词数

(10)encoding(UTF-8):默认编码UTF-8

(11)detect(T):是否检查输入文件的编码,默认检查(T)

(12)symbol(F):是否保留符号,默认不保留符号(F)

(13)lines(1e+05):每次读取文件的最大行数,用于控制读取文件的长度。对于大文件,实现分次读取

(14)output(NULL):指定输出路径,一个字符串路径。只在输入内容为文件路径时,本参数才会被使用

(15)bylines(F):文件结果是否按行输出,如果是,则将读入的文件或字符串向量按行逐个进行分词操作

(16)user_weight(max):用户词典中的词的词频,默认为 “max”,系统词典中的最大值。

还可以选 “min”

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值