BIT1015 Edit Distance

本文介绍了一个简单的动态规划算法实现,用于计算两个字符串之间的编辑距离。通过构建二维数组res[i][j]来存储长度为i的字符串stra与长度为j的字符串strb之间的编辑距离,利用状态转移方程进行迭代计算。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简单dp

res[i][j]表示i长度的前a个字符的串与前j个长度的b字符串的编辑距离

当stra[i-1]等于strb[j-1]时,状态转移为res[i][j]=res[i-1][j-1]

否则,res[i][j]=MIN(res[i-1][j-1]+1,res[i][j-1]+1,res[i-1][j]+1)

#include<iostream>
#include<algorithm>
#include<cstdio>
using namespace std;
char stra[1010];
char strb[1010];
int res[1010][1010];
//res[i][j]表示i长度的前a个字符的串与前j个长度的b字符串的编辑距离
//最后结果为res[la][lb]
int main()
{
	int la,lb;
	while (~scanf("%d %d",&la,&lb))
	{
		scanf("%s",stra);
		scanf("%s",strb);
		//求res[i][j]
		//res[i-1][j]+1          res[i][j-1]+1    res[i-1][j-1]
		for (int i= 0; i <=lb; i++)
		{
			res[0][i]=i;
		}
		for (int i = 0; i <=la; i++)
		{
			res[i][0]=i;
		}
		for(int i=1;i<=la;i++)
		{
			for(int j=1;j<=lb;j++)
			{
				res[i][j]=INT_MAX;
			}
		}
		for(int i=1;i<=la;i++)
		{
			for (int j = 1; j <=lb; j++)
			{
				if(stra[i-1]==strb[j-1])
				{
					res[i][j]=res[i-1][j-1];
				}
				if(res[i-1][j]>res[i][j-1])
				{
					if (res[i][j]>res[i][j-1]+1)
					{
						res[i][j]=res[i][j-1]+1;
					}
				}
				else
				{
					if (res[i][j]>res[i-1][j]+1)
					{
						res[i][j]=res[i-1][j]+1;
					}
				}
				if(res[i][j]>res[i-1][j-1]+1)
				{
					res[i][j]=res[i-1][j-1]+1;
				}
			}
		}
		printf("%d\n",res[la][lb]);
	}
	return 0;
}


### 查重算法概述 查重算法用于检测文档之间的相似性,广泛应用于学术论文、编程代码以及各种文本内容的重复率分析。不同的应用场景可能需要不同类型的查重方法来满足特定需求。 #### Java中的查重精确算法 对于Java环境下的查重问题,存在多种实现方式可以考虑。一种常见的策略是基于哈希的方法,通过构建文件指纹或摘要来进行比较[^1]。这种方法能够有效地减少数据量并提高匹配速度。具体来说: - **字符串散列化**:将待测对象转换成固定长度的二进制串表示形式; - **分块处理**:把大文件分割成若干个小片段分别计算其特征值; - **索引建立**:利用数据库或其他结构存储已知样本的信息以便快速检索; ```java import java.util.HashSet; import java.util.Set; public class DuplicateChecker { private Set<String> seenHashes = new HashSet<>(); public boolean isDuplicate(String content) { String hashValue = generateHash(content); return !seenHashes.add(hashValue); // 如果add返回false说明已经存在相同hash } private String generateHash(String input){ // 这里应该放置实际使用的加密函数比如MD5, SHA等 throw new UnsupportedOperationException("Not implemented"); } } ``` #### SimHash与汉明距离的应用 SimHash是一种局部敏感哈希技术,在大规模文本对比中有良好表现。它的工作原理是对每篇文档生成一个紧凑的签名向量(通常是64位整数),之后可以通过简单的按位操作评估任意两者间的差异程度——即所谓的“汉明距离”。当两个simhash之间仅有少量比特位不同,则认为它们代表的内容较为接近[^2]。 ```python def sim_hash(text): """简化版SIMHASH生成器""" import hashlib shingles = set([text[i:i+3] for i in range(len(text)-2)]) vector = [0]*64 # 初始化为零数组作为初始状态 for s in shingles: h = int.from_bytes(hashlib.md5(s.encode()).digest(), 'little') for idx in range(64): bit = (h >> idx) & 1 if bit == 1: vector[idx] += 1 elif bit == 0: vector[idx] -= 1 result = ''.join(['1' if v>=0 else '0' for v in vector]) return int(result, base=2) def hamming_distance(x,y): xor_result = bin(x ^ y)[2:] count = sum(c=='1'for c in xor_result) return count ``` #### 编辑距离的概念及其应用 编辑距离定义了由一系列基本变换(插入字符、删除字符、替换字符)从源序列到达目标序列所需的最小次数。Levenshtein Distance是最著名的例子之一。此度量标准特别适合于衡量短语级别的变化情况,因为即使整体布局变动不大也可能造成较大影响[^3]。 ```csharp using System; class Program { static void Main() { Console.WriteLine(EditDistance("kitten", "sitting")); // 输出3 } static int EditDistance(string word1, string word2) { var dp = new int[word1.Length + 1, word2.Length + 1]; for(int i = 0; i <= word1.Length; ++i) dp[i, 0] = i; for(int j = 0; j <= word2.Length; ++j) dp[0, j] = j; for(int i = 1; i <= word1.Length; ++i) for(int j = 1; j <= word2.Length; ++j) if(word1[i - 1] == word2[j - 1]) dp[i,j]=dp[i-1,j-1]; else dp[i,j]=Math.Min(dp[i-1,j], Math.Min(dp[i,j-1], dp[i-1,j-1])) + 1; return dp[word1.Length,word2.Length]; } } ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值