Java总哈希表的运用,判断一个数组中是否存在相同的元素之间的距离在k以内!

本文介绍了一种使用哈希表的方法来检查给定数组中是否存在距离不超过k的重复元素,通过Java和C++两种实现方式展示了如何在O(n)的时间复杂度内解决问题。

Check if a given array contains duplicate elements within k distance from each other


用哈希表,复杂度O(n),直接嵌套循环复杂度O(n*k)。

import java.io.BufferedInputStream;
import java.util.HashSet;
import java.util.Scanner;

public class Main {
    static boolean checkDuplicateWithinK(int arr[], int k) {
        HashSet<Integer> set = new HashSet<>();
        for(int i = 0; i < arr.length; ++i) {
            if(set.contains(arr[i])) {
                return true;
            }
            set.add(arr[i]);
            if(i >= k) {
                set.remove(arr[i-k]);
            }
        }
        return false;
    }
    public static void main(String []args) {
        int T, n, k;
        Scanner cin = new Scanner(new BufferedInputStream(System.in));
        while (cin.hasNext()) {
            T = cin.nextInt();
            while (T-- != 0) {
                k = cin.nextInt();
                n = cin.nextInt();
                int arr[] = new int[n];
                for (int i = 0; i < n; ++i) {
                    arr[i] = cin.nextInt();
                }
                if (checkDuplicateWithinK(arr, k) == true) {
                    System.out.println("True");
                } else {
                    System.out.println("False");
                }
            }
        }
    }
}

当然还可以用C++的STL来解决:

#include <bits/stdc++.h>

using namespace std;
const int MAXN = 284;
int arr[MAXN];

int main() {
    ios::sync_with_stdio(false);
    int T, n, k;
    cin >> T;
    while(T--) {
        cin >> k >> n;
        multiset<int> s;
        bool ans = false;
        for(int i = 0; i < n; ++i) {
            cin >> arr[i];
            if(s.find(arr[i]) != s.end()) {
                ans = true;   
            }
            s.insert(arr[i]);
            if(i >= k) {
                s.erase(s.find(arr[i-k]));
            }
        }
        cout << (ans ? "True" : "False") << endl;
    }
    return 0;
}



<think>嗯,用户问的是如何快速判断几十亿个数中是否存在某个数,并且提到是否可以使用位图。这个问题看起来像是大数据处理中的存在性检测问题。首先,我需要回忆一下常见的数据结构,比如哈希表、布隆过滤器、位图等。 用户提到几十亿个数,这个数据量非常大,传统的哈希表可能会占用太多内存。比如,如果每个数用4字节存储,几十亿就是几十GB,显然不合适。这时候,位图可能是一个更节省空间的方案,但需要考虑数值的范围。 位图的原理是用一个bit来表示一个是否存在,所以如果数值范围是N,位图的空间就是N/8字节。比如数值范围是0到10亿,位图需要大约125MB,这显然可行。但如果数值范围很大,比如到2^64,位图就不现实了,因为需要2^61字节,远远超过现有内存。 所以用户的问题关键在于数值的范围。如果数据分布密集且范围不大,位图确实高效。但如果范围太大,位图不可行,这时候可能需要布隆过滤器。布隆过滤器通过多个哈希函数减少冲突概率,允许一定的误判率,但节省空间。 另外,用户可能需要处理的是整数,如果是字符串或其他类型,可能需要先哈希成整数。布隆过滤器在这种情况下更合适,因为它不依赖数值本身的分布,而是通过哈希映射到位数组中。 还需要考虑的是,用户的需求是“是否存在”,是否允许误判。布隆过滤器有误判的可能,但位图没有。如果必须精确判断,位图在可行范围内是好的,否则可能需要结合其他方法,比如分片位图或者压缩。 还有可能用户的数据是动态变化的,需要支持插入和查询。位图和布隆过滤器都支持,但布隆过滤器的删除操作比较复杂,通常不支持。如果用户需要删除,可能需要其他结构如计数布隆过滤器,但这又增加了空间开销。 结来说,回答用户时需要明确几个点:数值类型、范围、是否允许误判、是否需要动态更新。然后根据这些条件推荐合适的数据结构。位图在特定情况下可行,而布隆过滤器则适用于更广泛的情况,但需要权衡误判率和空间。</think>针对海量数据存在判断问题,可以通过位图方案实现高效查询,但需要根据具体场景选择合适的实现方式: --- ### **一、基础位图方案** **适用条件**: - 数值范围有限(最好在 $10^8$ 以内) - 数值为整数类型 - 精确查找(零误判) **实现原理**: $$存储空间 = \frac{数值最大值}{8} \ bytes$$ 每个bit对应一个数值,存在置1,不存在置0 **示例**: ```python class Bitmap: def __init__(self, max_num): self.size = (max_num // 8) + 1 self.array = bytearray(self.size) def add(self, num): index = num // 8 offset = num % 8 self.array[index] |= 1 << offset def contains(self, num): index = num // 8 offset = num % 8 return (self.array[index] & (1 << offset)) != 0 ``` --- ### **二、改进方案(应对不同场景)** #### **场景1:数值范围过大** **方案**:分片位图 + 哈希 ```python from hashlib import md5 class ShardedBitmap: def __init__(self, shard_bits=16): self.shard_count = 1 << shard_bits # 默认65536个分片 self.bitmaps = [Bitmap(2**(32-shard_bits)) for _ in range(self.shard_count)] def _get_shard(self, num): hash_val = int(md5(str(num).encode()).hexdigest(), 16) return hash_val % self.shard_count ``` --- #### **场景2:允许误判(节省空间)** **方案**:布隆过滤器(概率型数据结构) $$误判率 \approx (1-e^{-kn/m})^k$$ ```python from bitarray import bitarray import mmh3 class BloomFilter: def __init__(self, size, hash_count=3): self.size = size self.hash_count = hash_count self.bit_array = bitarray(size) self.bit_array.setall(0) def add(self, string): for seed in range(self.hash_count): result = mmh3.hash(string, seed) % self.size self.bit_array[result] = 1 def contains(self, string): for seed in range(self.hash_count): result = mmh3.hash(string, seed) % self.size if not self.bit_array[result]: return False return True # 可能存在误判 ``` --- ### **三、性能对比** | 方案 | 空间复杂度 | 时间复杂度 | 误判率 | 支持删除 | |-----------------|------------|------------|--------|----------| | 基础位图 | $O(n)$ | $O(1)$ | 0% | ✅ | | 分片位图 | $O(n)$ | $O(1)$ | 0% | ✅ | | 布隆过滤器 | $O(m)$ | $O(k)$ | >0% | ❌ | | 压缩位图(ROARING)| $O(n)$ | $O(1)$ | 0% | ✅ | --- ### **四、生产级方案选择** 1. **数值范围 < 1亿**:直接使用位图 ```bash # Redis实现示例 SETBIT mymap 123456 1 GETBIT mymap 123456 ``` 2. **数值范围 > 1亿**: - 使用Roaring Bitmap(Apache开源实现) - 支持稀疏数据压缩,查询效率与普通位图相当 3. **非数值型数据**: - 布隆过滤器(推荐Guava实现) ```java // Java示例 BloomFilter<String> filter = BloomFilter.create( Funnels.stringFunnel(), 500000000, // 预期元素量 0.01); // 误判率 ``` --- ### **五、工程实践建议** 1. **内存优化**: - 使用内存映射文件处理超大数据 ```python with open("data.bin", "r+b") as f: mm = mmap.mmap(f.fileno(), 0) bitmap = Bitmap.from_buffer(mm) ``` 2. **分布式方案**: ```python # 使用Redis Cluster分片存储 from rediscluster import RedisCluster startup_nodes = [{"host": "127.0.0.1", "port": "7000"}] rc = RedisCluster(startup_nodes=startup_nodes) rc.setbit("global_bitmap", 10**9, 1) # 自动分片存储 ``` 3. **SSD优化**: - 使用PAGE_SIZE对齐的批量写入(通常4KB) - 采用WAL(Write-Ahead Logging)保证数据安全 --- **最终结论**:位图方案在合理设计下完全适用于数十亿数据的快速存在判断,实际应用时应根据数据特征(数值范围、数据类型、精确度要求)选择具体实现方式,结合内存/存储优化手段可处理PB级数据
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值