R语言——jiebaR基础

最新推荐文章于 2023-01-01 13:39:48 发布

Mr_Fengyy

最新推荐文章于 2023-01-01 13:39:48 发布

阅读量5.3k

点赞数 7

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/weixin_41030360/article/details/80891701

这篇博客介绍了R语言中jiebaR包的使用，包括如何构建分词器worker，分词函数segment，添加用户词典new_user_word，以及分词后的标记和关键词提取功能。示例展示了对文件进行分词，保留标点符号，词频统计，海明距离计算等功能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、jiebaR中的函数介绍(很大一部分参照jiebaR官方文档：qinwenfeng.com/jiebaR/)
**No.1**
worker(type = "mix", dict = DICTPATH, hmm = HMMPATH, user = USERPATH,idf = IDFPATH,
stop_word = STOPPATH, write = T, qmax = 20, topn = 5,encoding = "UTF-8", detect = T,
symbol = F, lines = 1e+05,output = NULL, bylines = F, user_weight = "max")
worker()函数的作用是构建一个分词器，通常在分析文本的时候，需要首先构建分词器。

#构建分词器的语句如下，不添加任何参数的话，使用函数中默认的参数
>分词器=worker()

worker()函数的各参数介绍如下：
(1)type(mix):分词模型，有好几个可选项
[1]mp 基于词典的最大概率模型
[2]hmm 基于HMM模型，可以发现词典中没有的词
[3]mix 混合模型，先用mp分词，分完以后调用hmm把剩余的可能成词的单字拿出来
[4]query 索引模型，对大于一定长度的词再进行一次切分
[5]tag 标记模型，基于用户词典的词性标注
[6]keywords 关键词模型，TF-IDF抽去关键词
[7]simhash Simhash模型，在关键词的基础上计算simhash

(2)dict(DICTPATH)：系统词典，默认路径为jiebaR::DICTPATH,文件名为jieba.dict.utf8
系统词典的默认数据结构为三列：词语、词频、词性
>readLines(jiebaR::DICTPATH,5,encoding = "UTF-8")
[1] "1号店 3 n" "1號店 3 n" "4S店 3 n" "4s店 3 n" "AA制 3 n"

(3)hmm(HMMPATH)：HMM词典，默认jiebaR::HMMPATH

(4)user(USERPATH)：用户词典，默认jiebaR::USERPATH

(5)idf(IDFPATH)：IDF词典，默认jiebaR::IDFPATH

(6)stop_word(STOPPATH)：停用此词典，默认STOPPATH

(7)write(T)：是否写入文件，默认为T
只在输入内容为文件路径时，本参数才会被使用。本参数只对分词和词性标注有效。

(8)qmax(20)：索引模型中，最大可能成词的字符数，默认20

(9)topn(5)：提取的关键词数

(10)encoding(UTF-8)：默认编码UTF-8

(11)detect(T)：是否检查输入文件的编码，默认检查(T)

(12)symbol(F)：是否保留符号，默认不保留符号(F)

(13)lines(1e+05)：每次读取文件的最大行数，用于控制读取文件的长度。对于大文件，实现分次读取

(14)output(NULL)：指定输出路径，一个字符串路径。只在输入内容为文件路径时，本参数才会被使用