使用textreuse包。
(1)两个字符串的对比
#textreuse计算相似度
library(textreuse)
help(package="textreuse")
txtc<-function(text1,text2){
tokens1 <- tokenize_words(text1)
tokens2 <- tokenize_words(text2)
xsd=jaccard_similarity(tokens1, tokens2)
return(xsd)
}
txtc("Pairwise comparisons among documents in a corpus","Candidate pairs from pairwise comparisons")
(2)一个向量所有字符串的对比
xltxtc<-function(textv){
library(textreuse)
unordered_pairs <- combn(textv, 2, simplify = FALSE)
results<-lapply(unordered_pairs,function(x) txtc(x[1],x[2]))
re2=unlist(results)
jg=unordered_pairs[re2>=0.8]
return(jg)
}
title=c("a", "a", "a", "b")
xltxtc(title)