余弦相似度-java代码实现

本文介绍了一种基于余弦相似度的字符串匹配算法实现方法。通过将两个字符串转换为向量并计算它们之间的余弦相似度来衡量两者的相似程度。
package sim;

import java.util.HashMap;
import java.util.Map;
import java.util.Set;

/**
 * 字符串相似性匹配算法
 * Created by panther on 15-7-20.
 */
public class Similarity {
    Map<Character, int[]> vectorMap = new HashMap<Character, int[]>();

    int[] tempArray = null;

    public Similarity(String string1, String string2) {

        for (Character character1 : string1.toCharArray()) {
            if (vectorMap.containsKey(character1)) {
                vectorMap.get(character1)[0]++;
            } else {
                tempArray = new int[2];
                tempArray[0] = 1;
                tempArray[1] = 0;
                vectorMap.put(character1, tempArray);
            }
        }
        for (Character character2 : string2.toCharArray()) {
            if (vectorMap.containsKey(character2)) {
                vectorMap.get(character2)[1]++;
            } else {
                tempArray = new int[2];
                tempArray[0] = 0;
                tempArray[1] = 1;
                vectorMap.put(character2, tempArray);
            }
        }
    }

    // 求余弦相似度
    public double sim() {
        double result = 0;
        result = pointMulti(vectorMap) / sqrtMulti(vectorMap);
        return result;
    }

    private double sqrtMulti(Map<Character, int[]> paramMap) {
        double result = 0;
        result = squares(paramMap);
        result = Math.sqrt(result);
        return result;
    }

    // 求平方和
    private double squares(Map<Character, int[]> paramMap) {
        double result1 = 0;
        double result2 = 0;
        Set<Character> keySet = paramMap.keySet();
        for (Character character : keySet) {
            int temp[] = paramMap.get(character);
            result1 += (temp[0] * temp[0]);
            result2 += (temp[1] * temp[1]);
        }
        return result1 * result2;
    }

    // 点乘法
    private double pointMulti(Map<Character, int[]> paramMap) {
        double result = 0;
        Set<Character> keySet = paramMap.keySet();
        for (Character character : keySet) {
            int temp[] = paramMap.get(character);
            result += (temp[0] * temp[1]);
        }
        return result;
    }

    public static void main(String[] args) {
        String s1 = "我是一个帅哥";
        String s2 = "帅哥是我";
        Similarity similarity = new Similarity(s1, s2);
        System.out.println(similarity.sim());
    }

}

输出结果:


分析:

    字符串s1中的内容是“我是一个帅哥”,这个字符串中对应的向量名称为<我,是,一,个,帅,哥>,这个字符串的值为<1,1,1,1,1,1>字符串s2对应的值为<1,1,0,0,1,1>,向量s1点乘向量s2的结果为1*1+1*1+1*0+1*0+1*1+1*1 = 4,

向量s1的模为根号6,向量s2的模为2,所以相似度的结果为0.81

### Java 实现 TF-IDF 和余弦相似度 为了实现文本相似度计算中的TF-IDF和余弦相似度,在Java中可以借助Apache Lucene或其他第三方来简化操作。下面展示了一个简单的例子,该例子展示了如何构建一个基本框架来进行这些计算。 #### 构建TF-IDF矩阵 首先定义用于创建文档集合并转换成TF-IDF权重的方法: ```java import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.tartarus.snowball.ext.PorterStemmer; public class TfIdfCalculator { private static final StandardAnalyzer analyzer = new StandardAnalyzer(); public double[][] computeTfIdf(List<String> documents) { Map<String, Integer> wordDocumentFrequency = new HashMap<>(); List<Map<String, Double>> documentWordFrequencies = new ArrayList<>(); // 计算每个词在各文档内的频率 (tf) for (String doc : documents) { Map<String, Double> termFreqsInDoc = getTermFrequencies(doc); documentWordFrequencies.add(termFreqsInDoc); // 更新全局df计数器 updateGlobalDfs(wordDocumentFrequency, termFreqsInDoc.keySet()); } int numDocs = documents.size(); double[][] tfidfMatrix = new double[numDocs][]; // 转换成tf-idf形式 for (int i = 0; i < numDocs; ++i){ Map<String,Double> terms = documentWordFrequencies.get(i); Set<String> keys = terms.keySet(); double[] rowVector = convertToTfidf(keys,terms,numDocs,wordDocumentFrequency); tfidfMatrix[i]=rowVector; } return tfidfMatrix; } private void updateGlobalDfs(Map<String, Integer> globalDF, Collection<String> words) { for (String w : words) { globalDF.merge(w.toLowerCase(), 1, Integer::sum); } } private Map<String, Double> getTermFrequencies(String text) { try { TokenStream stream = tokenizer.tokenStream("dummyField", new StringReader(text)); CharTermAttribute attr = stream.addAttribute(CharTermAttribute.class); Map<String, Double> freqMap = new HashMap<>(); while (stream.incrementToken()) { String token = attr.toString().toLowerCase(); PorterStemmer stemmer = new PorterStemmer(); if(stemmer.setCurrent(token)){ stemmer.stem(); freqMap.merge(stemmer.getCurrent(), 1.0, Double::sum); }else{ freqMap.merge(token, 1.0, Double::sum); } } return freqMap; } catch (IOException e) { throw new RuntimeException(e); } } } ``` 此部分代码负责处理输入的文档集合并生成相应的TF-IDF矩阵[^2]。 #### 计算两个向量间的余弦相似度 有了上述方法产生的TF-IDF矩阵之后,就可以很方便地利用它来求解任意两篇文档之间的余弦相似度了: ```java public class CosineSimilarity { /** * Computes the cosine similarity between two vectors. */ public static double getCosineSimilarity(double[] vectorA, double[] vectorB) { double dotProduct = 0.0; double normA = 0.0; double normB = 0.0; for (int i = 0; i < vectorA.length; i++) { dotProduct += vectorA[i] * vectorB[i]; normA += Math.pow(vectorA[i], 2); normB += Math.pow(vectorB[i], 2); } return dotProduct / (Math.sqrt(normA) * Math.sqrt(normB)); } } ``` 这段程序实现了标准的余弦相似度公式\[ \frac{A\cdot B}{||A|| ||B||} \] 的具体运算逻辑[^1]。 通过组合这两个类的功能,便可以在给定一组文档的情况下轻松完成它们之间相似性的评估工作。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值