字符串相似度算法

相似度算法

Jaccard Similarity Coefficient、JaroWinkler 、Cosine Similarity、Levenshtein 距离编辑算法案例。

  • Jaccard相似性系数衡量两个集合的相似程度,通过计算两个集合的交集大小除以并集大小得出。适用于处理文本、推荐系统、生物信息学等领域
  • Cosine Similarity 余弦相似度用于度量两个向量之间的夹角余弦值,适用于文本相似性、信息检索和推荐系统等领域。它将向量投影到多维空间中,衡量它们的方向相似程度。
  • Levenshtein 将一个字符串转换为另一个字符串所需的最小编辑操作数,包括插入、删除和替换。常用于拼写纠错、基因序列比对等领域。
  • Jaro-Winkler距离衡量两个字符串的相似性,考虑字符匹配和位置,适用于姓名匹配、数据清洗等领域。

一、java实现

1.1 引入Maven依赖

 <dependency>
     <groupId>org.apache.commons</groupId>
     <artifactId>commons-text</artifactId>
     <version>1.10.0</version>
 </dependency>

1.2 Java测试类

import org.apache.commons.text.similarity.CosineDistance;
import org.apache.commons.text.similarity.JaccardDistance;
import org.apache.commons.text.similarity.JaroWinklerDistance;
import org.apache.commons.text.similarity.LevenshteinDistance;

public class EditDistanceTest {
   
   

    private Map<String, String> testData(){
   
   
        String goalName = "Dexter Morgan";
        HashMap<String, String> data = Maps.newHashMap();
        data.put("Jackson Morgan", goalName);
        data.put("Dex Morgan", goalName);
        data.put("Deter Morgan", goalName);
        data.put("Morgan", goalName);
        data.put("Morgan Dexter", goalName);
        data.put("MorganDexter", goalName);
        data.put("Dexter Morgan", goalName);
        data.put("DexterMorgan", goalName);
        data.put("DexterMorgan ", goalName);
        return data;
    }

    @Test
    public void testEditDistance(){
   
   

        for (Map.Entry<String, String> entry : testData().entrySet()) {
   
   

            //最后得分越高说明相似度越大, 0分表示没有任何相似度,1分则代表完全匹配
            System.out.printf("JaroWinklerDistance [%s],[%s]相似度 ===> [%s]%n", entry.getKey
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值