前 K 个高频元素

前 K 个高频元素

问题

给定一个 非空的整数数组,返回其中出现频率前 k 高的元素。 频数TopK

  1. 示例

输入: nums = [1,1,1,2,2,3], k = 2

输出: [1,2]

  1. 示例 2:

输入: nums = [1], k = 1

输出: [1]

  • 说明:

你可以假设给定的 k 总是合理的,且 1 ≤ k ≤ 数组中不相同的元素的个数。
你的算法的时间复杂度必须优于 O(n log n) , n 是数组的大小。

 

  1. 方法 1:堆

想法

  1. k = 1 时问题很简单,线性时间内就可以解决。只需要用哈希表维护元素出现频率,每一步更新最高频元素即可。
  2. 当 k > 1 就需要一个能够根据出现频率快速获取元素的数据结构,这就是优先队列
  3. 首先建立一个元素值对应出现频率的哈希表。
    1. 在 Java 中使用 HashMap,但需要手工填值
    2. 在 Python 中提供一个字典结构用作哈希表和在 collections 库中的 Counter 方法去构建我们需要的哈希表。

这个步骤需要 O(N)时间其中 N 是列表中元素个数。

  1. 第二步建立堆,堆中添加一个元素的复杂度是 O(log(k)),要进行 N 次复杂度是 O(N)。

最后一步是输出结果,复杂度为 O(klog(k))

  • 在 Python 中可以使用 heapq 库中的 nlargest 方法,可以在相同时间内完成,但只需要一行代码解决。

 

  • Java
  • Python
class Solution {
  public List<Integer> topKFrequent(int[] nums, int k) {
    // build hash map : character and how often it appears
    HashMap<Integer, Integer> count = new HashMap();
    for (int n: nums) {
      count.put(n, count.getOrDefault(n, 0) + 1);
    }

    // init heap 'the less frequent element first'
    PriorityQueue<Integer> heap =
            new PriorityQueue<Integer>((n1, n2) -> count.get(n1) - count.get(n2));

    // keep k top frequent elements in the heap
    for (int n: count.keySet()) {
      heap.add(n);
      if (heap.size() > k)
        heap.poll();
    }

    // build output list
    List<Integer> top_k = new LinkedList();
    while (!heap.isEmpty())
      top_k.add(heap.poll());
    Collections.reverse(top_k);
    return top_k;
  }
}

复杂度分析

  • 时间复杂度:O(Nlog(k))。Counter 方法的复杂度是 O(N)O(N),建堆和输出的复杂度是 O(N \log(k))O(Nlog(k))。因此总复杂度为 O(N + N \log(k)) = O(N \log(k))O(N+Nlog(k))=O(Nlog(k))。
  • 空间复杂度:O(N)O(N),存储哈希表的开销。

注释

根据复杂度分析,方法对于小 k 的情况是很优的。但是如果 k 值很大,我们可以将算法改成删除频率最低的若干个元素。

### 找到数据集中K个高频元素的Python实现 以下是基于提供的引用内容和专业知识,针对寻找数据集中K个高频元素的一种效解决方案。该方案利用了`collections.Counter`模块来统计频率,并通过小顶堆(heapq)筛选出K个高频元素。 #### 方法概述 为了满足时间复杂度的要求并减少不必要的计算开销,可以采用如下策略: - 使用 `collections.Counter` 统计输入列表中各元素的出现次数[^1]。 - 利用堆(Heap)这种数据结构维护当发现的K个高频元素。由于堆能够快速调整内部顺序,在处理大规模数据时效率较[^2]。 下面是一个完整的 Python 实现: ```python from collections import Counter import heapq def topKFrequent(nums, k): # Step 1: Count the frequency of each element using Counter. count = Counter(nums) # Step 2: Use a heap to maintain the top-k frequent elements. return [item for item, freq in heapq.nlargest(k, count.items(), key=lambda x: x[1])] # Example usage: if __name__ == "__main__": nums = [1, 1, 1, 2, 2, 3] k = 2 result = topKFrequent(nums, k) print(result) # Output might be [1, 2], depending on implementation details. ``` 上述代码片段实现了以下逻辑: 1. **统计频率**:借助 `Counter` 类型创建字典形式的结果,其中键为原始数组中的数值,值为其对应的出现次数。 2. **构建堆**:调用内置函数 `heapq.nlargest()` 来获取按频率降序排列的最大k项[(key-value pairs)][]^2]^. 这种方法的时间复杂度主要由两部分组成: - 构建哈希表 O(n),n 是原数组长度; - 调整大小固定的最小堆至最终状态所需操作约为O(k log p),p表示不同数字总数[^4]. 综上所述,整体性能表现良好尤其当目标参数k远小于实际可能候选者数量级情况下更为明显优势突出。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值