一、jiebaR中的函数介绍(很大一部分参照jiebaR官方文档:qinwenfeng.com/jiebaR/)
**No.1**
worker(type = "mix", dict = DICTPATH, hmm = HMMPATH, user = USERPATH,idf = IDFPATH,
stop_word = STOPPATH, write = T, qmax = 20, topn = 5,encoding = "UTF-8", detect = T,
symbol = F, lines = 1e+05,output = NULL, bylines = F, user_weight = "max")
worker()函数的作用是构建一个分词器,通常在分析文本的时候,需要首先构建分词器。
#构建分词器的语句如下,不添加任何参数的话,使用函数中默认的参数
>分词器=worker()
worker()函数的各参数介绍如下:
(1)type(mix):分词模型,有好几个可选项
[1]mp 基于词典的最大概率模型
[2]hmm 基于HMM模型,可以发现词典中没有的词
[3]mix 混合模型,先用mp分词,分完以后调用hmm把剩余的可能成词的单字拿出来
[4]query 索引模型,对大于一定长度的词再进行一次切分
[5]tag 标记模型,基于用户词典的词性标注
[6]keywords 关键词模型,TF-IDF抽去关键词
[7]simhash Simhash模型,在关键词的基础上计算simhash
(2)dict(DICTPATH):系统词典,默认路径为jiebaR::DICTPATH,文件名为jieba.dict.utf8
系统词典的默认数据结构为三列:词语、词频、词性
>readLines(jiebaR::DICTPATH,5,encoding = "UTF-8")
[1] "1号店 3 n" "1號店 3 n" "4S店 3 n" "4s店 3 n" "AA制 3 n"
(3)hmm(HMMPATH):HMM词典,默认jiebaR::HMMPATH
(4)user(USERPATH):用户词典,默认jiebaR::USERPATH
(5)idf(IDFPATH):IDF词典,默认jiebaR::IDFPATH
(6)stop_word(STOPPATH):停用此词典,默认STOPPATH
(7)write(T):是否写入文件,默认为T
只在输入内容为文件路径时,本参数才会被使用。本参数只对分词和词性标注有效。
(8)qmax(20):索引模型中,最大可能成词的字符数,默认20
(9)topn(5):提取的关键词数
(10)encoding(UTF-8):默认编码UTF-8
(11)detect(T):是否检查输入文件的编码,默认检查(T)
(12)symbol(F):是否保留符号,默认不保留符号(F)
(13)lines(1e+05):每次读取文件的最大行数,用于控制读取文件的长度。对于大文件,实现分次读取
(14)output(NULL):指定输出路径,一个字符串路径。只在输入内容为文件路径时,本参数才会被使用
(15)bylines(F):文件结果是否按行输出,如果是,则将读入的文件或字符串向量按行逐个进行分词操作
(16)user_weight(max):用户词典中的词的词频,默认为 “max”,系统词典中的最大值。
还可以选 “min”