利用编辑距离计算文本相似性

本文详细介绍了编辑距离的概念及其在文本相似性判断中的应用。通过具体的例子解释了如何利用动态规划求解两个字符串之间的编辑距离,包括替换、插入和删除操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文本相似性

编辑距离

  • 什么是编辑距离?
    看下百度百科的介绍:编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符插入一个字符删除一个字符。一般来说,编辑距离越小,两个串的相似度越大
    比如说:
    kitten->sitten (k→s)
    sitten->sittin (e→i)
    sittin->sitting (插入g)

找出字符串s1和字符串s2的编辑距离,就是求出字符串s1变成字符串s2的最小操作步骤,主要操作步骤有三种:交换、删除、插入。可以利用动态规划的思想来求解字符转 s1和字符串s2的编辑距离。

动态规划公式如下所示:

distance[i][0]=i,if(i>=0,j==0) distance[0][j]=j,if(i==0,j>=0) distance[i][j]=min(distance[i1][j],distance[i][j1],distance[i1][j1]),if(s1[i]==s2[j]) distance[i][j]=min(distance[i1][j],distance[i][j1],distance[i1][j1]+1),if(s1[i]s2[j])

  • 代码示例
package com.myapp.ml.nlp;

import org.apache.commons.lang3.StringUtils;

/**
 * Created by lionel on 16/12/21.
 */
public class EditDistance {
    public int editDistance(String A, String B) {
        if (StringUtils.isBlank(A + B)) {
            return 0;
        }
        int lengthA = A.length();
        int lengthB = B.length();
        int[][] distance = new int[lengthA + 1][lengthB + 1];

        for (int i = 0; i < lengthA; i++) {
            distance[i][0] = i;
        }

        for (int i = 0; i < lengthB; i++) {
            distance[0][i] = i;
        }

        for (int i = 1; i < lengthA; i++) {
            for (int j = 1; j < lengthB; j++) {
                int cost = A.charAt(i - 1) == B.charAt(j - 1) ? 0 : 1;
                int deletion = distance[i - 1][j] + 1;
                int insertion = distance[i][j - 1] + 1;
                int exchange = distance[i - 1][j - 1] + cost;
                distance[i][j] = Math.min(exchange, Math.min(insertion, deletion));
            }
        }

        return distance[lengthA - 1][lengthB - 1];
    }

    public static void main(String[] args) {
        EditDistance editDistance = new EditDistance();
        String str2 = "kitten";
        String str1 = "sitting";
        System.out.println(editDistance.editDistance(str1, str2));//3
    }
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值