------ 本文是学习算法的笔记,《数据结构与算法之美》,极客时间的课程 ------
在Trie 树那节,我们讲过,利用 Trie 树,可以实现搜索引擎的关键词提示功能,这样可以节省用户输入搜索关键词的时间。实际上,搜索引擎在用户体验方面的优化还有很多,比如你可能经常会用的拼写纠错功能。
当你在搜索框中,一不小心输错单词,搜索引擎会非常智能地检测出你的拼写错误,并且用对应的正确的单词来进行搜索。作为一名软件开发工程师,这个功能你该怎么实现呢?
如何量化两个字符串的相似度?
计算机只认识数字,所以要解答开篇的问题,我们就要先来看,如何量化两个字符串之间的相似程度呢?有一个非常著名的量化方法,那就是编辑距离(Edit Distance)
顾名思义,编辑距离指的就是,将一个字符串转化成另一个字符串,需要的最少编辑操作次数(比如增加一个字符、删除一个字符、替换一个字符)。编辑距离越大,说明两个字符串的相似程度越小;相反,编辑距离越小,说明两个字符串的相似程度越大。对于两个完全相同的字符串来说,编辑距离就是0。
根据所包含的编辑操作种类不同,编辑距离有多种不同的计算方式,比较著名的有莱文斯坦距离(Levenshtein distance)和最长公共子串长度(Longest common substring length)。其中,莱文斯坦距离允许增加、删除、替换三个编辑操作,最长公共子串长度只允许增加、删除字符两个编辑操作。
而且,莱文斯坦距离和最长公共子串长度,从两个截然相反的角度,分析字符串的相似程度。莱文斯坦距离的大小,表示两个字符串差异的大小;而公共最长子串的大小,表示两个字符串相似的程度大小。
关于这两个计算方法,我举个例子说明一下。这里面,两个字符串 mitcmu 和 mtacnu 的莱文斯坦距离是3,最长公共子串长度是4。
了解了编辑距离的概念之后,我们来看,如何快速计算两个字符串之间的编辑距离。
如何编程计算莱文斯坦距离?
之前我反复强调过,思考过程比结论更重要,所以,我现在展示下,解决这个问题, 我的完整的思考过程。
这个问题是把一个字符串变成另一个字符串,需要最少编辑次数。整个求解过程,涉及多个决策阶段,我们老板娘依次考察一个字符串中的每个字符,跟另一个字符串中的字符是否匹配,匹配的话如何处理,不匹配的话又如何处理。所以,这个问题符合多阶段决策最优解模型。
我们前面讲了,贪心、回溯、动态规划可以解决的问题,都可以抽象成这样一个模型。要解决这个问题,我们可以先看一看,用最简单的回溯算法,该如何来解决。
回溯是一个递归处理的过程。如果 a[i] 和 b[j] 匹配,我们递归考察 a[i+1] 和 b[j+1]。如果a[i] 和 b[j]不匹配,那我们有多种处理方式可选:
- 可以删除 a[j],然后递归考察 a[i+1] 和 b[j];
- 可以删除 b[j],然后递归考察 a[i] 和 b[j+1];
- 可以在 a[i] 前面添加一个和 b[j] 相同的字符,然后递归考察a[i] 和 b[j+1];
- 可以在 b[i] 前面添加一个和 a[j] 相同的字符,然后递归考察a[i+1] 和 b[j];
- 可以将 a[i] 替换成 b[j]