R语言实现模糊匹配(1)

使用textreuse包。

(1)两个字符串的对比

#textreuse计算相似度
library(textreuse)
help(package="textreuse")
txtc<-function(text1,text2){
  tokens1 <- tokenize_words(text1)
  tokens2 <- tokenize_words(text2)
  xsd=jaccard_similarity(tokens1, tokens2)
  return(xsd)
}
txtc("Pairwise comparisons among documents in a corpus","Candidate pairs from pairwise comparisons")

(2)一个向量所有字符串的对比

xltxtc<-function(textv){
  library(textreuse)
  unordered_pairs <- combn(textv, 2, simplify = FALSE)
  results<-lapply(unordered_pairs,function(x) txtc(x[1],x[2]))
  re2=unlist(results)
  jg=unordered_pairs[re2>=0.8]
  return(jg)
}
title=c("a", "a", "a", "b")
xltxtc(title)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值