算法查重

哈希完成面向offer.03
先初始化一个哈希表 (HashSet)
然后遍历每一个元素,分别对每一个元素做如下的处理:
先判断哈希表中是否存在这个元素
如果存在的话,则说明这个元素重复,则直接返回
否则,将这个元素加入到哈希表中
public int findRepeatNumber(int[] nums) {
    //  初始化一个哈希表
    Set<Integer> set = new HashSet<>();
    for (int i = 0; i < nums.length; i++) {
        //判断当前元素是否已经存在
        if (set.contains(nums[i])) {
            // 如果存在,则直接返回
            return nums[i];
        }// 否则的话,将当前元素放入到哈希表中
        set.add(nums[i]);
    }
    return -1;
}2
数组完成
数组中每个元素的大小在 0 ~ n - 1 的范围内。利用这个信息,我们就可以使用数组代替上面方案二的哈希表,主要的思路是:

定义一个长度为 n 的数组 bucket,然后将所有的元素初始化为 -1
在查找处理的时候,使用原数组的元素作为 bucket 的下标,原数组元素对应的下标作为 bucket 的元素值。

public int findRepeatNumber(int[] nums) {
    // 1. 初始化一个数组
    int[] bucket = new int[nums.length];
    Arrays.fill(bucket, -1);for (int i = 0; i < nums.length; i++) {
        // 2. 判断当前元素是否已经存在
        if (bucket[nums[i]] != -1) {
            // 如果存在,则直接返回
            return nums[i];
        }// 否则的话,将当前元素作为索引,当前元素的下标作为值,填入数组中,
        // 方便后续的查找判重
        bucket[nums[i]] = i;
    }
    return -1;
}



### 查重算法概述 查重算法用于检测文档之间的相似性,广泛应用于学术论文、编程代码以及各种文本内容的重复率分析。不同的应用场景可能需要不同类型的查重方法来满足特定需求。 #### Java中的查重精确算法 对于Java环境下的查重问题,存在多种实现方式可以考虑。一种常见的策略是基于哈希的方法,通过构建文件指纹或摘要来进行比较[^1]。这种方法能够有效地减少数据量并提高匹配速度。具体来说: - **字符串散列化**:将待测对象转换成固定长度的二进制串表示形式; - **分块处理**:把大文件分割成若干个小片段分别计算其特征值; - **索引建立**:利用数据库或其他结构存储已知样本的信息以便快速检索; ```java import java.util.HashSet; import java.util.Set; public class DuplicateChecker { private Set<String> seenHashes = new HashSet<>(); public boolean isDuplicate(String content) { String hashValue = generateHash(content); return !seenHashes.add(hashValue); // 如果add返回false说明已经存在相同hash } private String generateHash(String input){ // 这里应该放置实际使用的加密函数比如MD5, SHA等 throw new UnsupportedOperationException("Not implemented"); } } ``` #### SimHash与汉明距离的应用 SimHash是一种局部敏感哈希技术,在大规模文本对比中有良好表现。它的工作原理是对每篇文档生成一个紧凑的签名向量(通常是64位整数),之后可以通过简单的按位操作评估任意两者间的差异程度——即所谓的“汉明距离”。当两个simhash之间仅有少量比特位不同,则认为它们代表的内容较为接近[^2]。 ```python def sim_hash(text): """简化版SIMHASH生成器""" import hashlib shingles = set([text[i:i+3] for i in range(len(text)-2)]) vector = [0]*64 # 初始化为零数组作为初始状态 for s in shingles: h = int.from_bytes(hashlib.md5(s.encode()).digest(), 'little') for idx in range(64): bit = (h >> idx) & 1 if bit == 1: vector[idx] += 1 elif bit == 0: vector[idx] -= 1 result = ''.join(['1' if v>=0 else '0' for v in vector]) return int(result, base=2) def hamming_distance(x,y): xor_result = bin(x ^ y)[2:] count = sum(c=='1'for c in xor_result) return count ``` #### 编辑距离的概念及其应用 编辑距离定义了由一系列基本变换(插入字符、删除字符、替换字符)从源序列到达目标序列所需的最小次数。Levenshtein Distance是最著名的例子之一。此度量标准特别适合于衡量短语级别的变化情况,因为即使整体布局变动不大也可能造成较大影响[^3]。 ```csharp using System; class Program { static void Main() { Console.WriteLine(EditDistance("kitten", "sitting")); // 输出3 } static int EditDistance(string word1, string word2) { var dp = new int[word1.Length + 1, word2.Length + 1]; for(int i = 0; i <= word1.Length; ++i) dp[i, 0] = i; for(int j = 0; j <= word2.Length; ++j) dp[0, j] = j; for(int i = 1; i <= word1.Length; ++i) for(int j = 1; j <= word2.Length; ++j) if(word1[i - 1] == word2[j - 1]) dp[i,j]=dp[i-1,j-1]; else dp[i,j]=Math.Min(dp[i-1,j], Math.Min(dp[i,j-1], dp[i-1,j-1])) + 1; return dp[word1.Length,word2.Length]; } } ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值