文本相似度算法(二):Levenshtein距离

本文介绍了一种计算两个字符串之间编辑距离的方法——莱文斯坦距离,并提供了一个C++实现示例。通过比较字符间的差异,该算法可用于评估文本相似度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

LevenshteinDistcance即莱文斯坦距离。
https://zh.wikipedia.org/wiki/%E8%90%8A%E6%96%87%E6%96%AF%E5%9D%A6%E8%B7%9D%E9%9B%A2
http://www.cnblogs.com/ivanyb/archive/2011/11/25/2263356.html


#include<iostream>
#include<algorithm>
#include<string>
#include<cassert>
#include<fstream>

using namespace std;

char s1[100];
char s2[100];
int dp[105][105] = { 0 };
int s1_len;
int s2_len;

/* 求出两文件的最长子序列 */
int LevenshteinDistcance()
{
    s1_len = strlen(s1);
    s2_len = strlen(s2);
    int cost;

    //初始化
    for (int i = 1; i <= s1_len; i++)
        dp[i][0] = i;
    for (int j = 1; j <= s2_len; j++)
        dp[0][j] = j;

    for (int i = 1; i <= s1_len; i++)
    {
        for (int j = 1; j <= s2_len; j++)
        {
            if (s1[i - 1] == s2[j - 1])
                cost = 1;
            else
                cost = 0;
            dp[i][j] = min(min(dp[i - 1][j] + 1, dp[i][j - 1] + 1), dp[i - 1][j - 1] + cost);
        }
    }

    return dp[s1_len][s2_len];
}

int main()
{
    string file_name1("s1.txt");
    string file_name2("s2.txt");

    ifstream fin;
    fin.open(file_name1.data());
    if (!fin.is_open())
    {
        cout << file_name1 << " 无法打开\n";
        return -1;
    }
    fin.getline(s1, 100);
    fin.close();

    fin.open(file_name2.data());
    if (!fin.is_open())
    {
        cout << file_name2 << " 无法打开\n";
        return -1;
    }
    fin.getline(s2, 100);
    fin.close();

    int lev = LevenshteinDistcance();
    cout << "编辑距离为:" << lev << endl;
    cout << "相似度为:" << (1 - double(lev) / max(s1_len, s2_len)) * 100 << "%\n";

    return 0;
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值