相似度算法
Jaccard Similarity Coefficient、JaroWinkler 、Cosine Similarity、Levenshtein 距离编辑算法案例。
- Jaccard相似性系数衡量两个集合的相似程度,通过计算两个集合的交集大小除以并集大小得出。适用于处理文本、推荐系统、生物信息学等领域
- Cosine Similarity 余弦相似度用于度量两个向量之间的夹角余弦值,适用于文本相似性、信息检索和推荐系统等领域。它将向量投影到多维空间中,衡量它们的方向相似程度。
- Levenshtein 将一个字符串转换为另一个字符串所需的最小编辑操作数,包括插入、删除和替换。常用于拼写纠错、基因序列比对等领域。
- Jaro-Winkler距离衡量两个字符串的相似性,考虑字符匹配和位置,适用于姓名匹配、数据清洗等领域。
一、java实现
1.1 引入Maven依赖
<dependency>
<groupId>org.apache.commons</groupId>
<artifactId>commons-text</artifactId>
<version>1.10.0</version>
</dependency>
1.2 Java测试类
import org.apache.commons.text.similarity.CosineDistance;
import org.apache.commons.text.similarity.JaccardDistance;
import org.apache.commons.text.similarity.JaroWinklerDistance;
import org.apache.commons.text.similarity.LevenshteinDistance;
public class EditDistanceTest {
private Map<String, String> testData(){
String goalName = "Dexter Morgan";
HashMap<String, String> data = Maps.newHashMap();
data.put("Jackson Morgan", goalName);
data.put("Dex Morgan", goalName);
data.put("Deter Morgan", goalName);
data.put("Morgan", goalName);
data.put("Morgan Dexter", goalName);
data.put("MorganDexter", goalName);
data.put("Dexter Morgan", goalName);
data.put("DexterMorgan", goalName);
data.put("DexterMorgan ", goalName);
return data;
}
@Test
public void testEditDistance(){
for (Map.Entry<String, String> entry : testData().entrySet()) {
//最后得分越高说明相似度越大, 0分表示没有任何相似度,1分则代表完全匹配
System.out.printf("JaroWinklerDistance [%s],[%s]相似度 ===> [%s]%n", entry.getKey

最低0.47元/天 解锁文章
5966

被折叠的 条评论
为什么被折叠?



