LintCode 1281: Top K Frequent Elements (堆经典题)

本文详细解析了求解数组中Top K频繁出现的元素的四种算法实现,包括使用最大堆、最小堆的不同方式,以及如何优化时间复杂度至优于O(nlogn),适合对数据结构和算法效率有高要求的场景。
  1. Top K Frequent Elements
    中文English
    Given a non-empty array of integers, return the k most frequent elements.

Example
Example 1:

Input: nums = [1,1,1,2,2,3], k = 2
Output: [1,2]
Example 2:

Input: nums = [1], k = 1
Output: [1]
Notice
You may assume k is always valid, 1 ≤ k ≤ number of unique elements.
Your algorithm’s time complexity must be better than O(n log n), where n is the array’s size.

解法1:用最大堆。prority_queue<>缺省就是最大堆。时间复杂度MlogM,其中M是不重复数据的数目。
注意:
1)unordered_map 不能用for (int i = 0; i < um.size(); ++i),因为它是unordered。但可以用auto 。


class Solution {
public:
    /**
     * @param nums: the given array
     * @param k: the given k
     * @return: the k most frequent elements
     */
    vector<int> topKFrequent(vector<int> &nums, int k) {
        unordered_map<int, int> um;  //num, freq
        priority_queue<pair<int, int>> pq;
        vector<int> result;
        
        for (int i = 0; i < nums.size(); ++i) um[nums[i]]++;
        
        //for (int i = 0; i < um.size(); ++i) {
        //    pq.push({um[i].second, um[i].first});
        //}
        for (auto m : um) {
            pq.push({m.second, m.first});
        }
        
        for (int i = 0; i < k; ++i) {
            result.push_back(pq.top().second);
            pq.pop();
        }
     
        return result;   
    }
};

解法2:最小堆。时间复杂度MlogK。
代码如下:


struct ResultType {
    int val;
    int freq;
    ResultType(int v = 0, int f = 0) : val(v), freq(f) {}
};

struct cmp {
    bool operator() (const ResultType & a, const ResultType & b) {
        if (a.freq > b.freq) {
            return true;
        } else if (a.freq == b.freq && a.val > b.val) {
            return true;
        } else {
            return false;
        }
    }
};

class Solution {
public:
    /**
     * @param nums: the given array
     * @param k: the given k
     * @return: the k most frequent elements
     */
    vector<int> topKFrequent(vector<int> &nums, int k) {
        unordered_map<int, int> um; //num, freq
        vector<int> result;
        priority_queue<ResultType, vector<ResultType>, cmp> pq;
        
        for (int i = 0; i < nums.size(); ++i) {
            um[nums[i]]++;
        }
        
        int count = 0;
        for (auto it : um) {
            pq.push(ResultType(it.first, it.second));
            if (count++ >= k) pq.pop();
        }
        
        while(!pq.empty()) {
            result.push_back(pq.top().val);
            pq.pop();
        }
        
        return result;
    }
};

解法3:还是最小堆。用一个map<int,int> freqs和Node结构,里面包含了num和重载了operator<,这个operator<就是根据freqs来排序,注意是最小堆,所以是freqs[num] > freqs[node.num]。

map<int, int> freqs; //<int, freq>
struct Node {
    int num;
    Node(int n) : num(n) {}
    bool operator < (const Node & node) const {
        return freqs[num] > freqs[node.num];
    }
};

class Solution {
public:
    vector<int> topKFrequent(vector<int>& nums, int k) {
        int len = nums.size();
        priority_queue<Node> minHeap;
        freqs.clear();
        
        for (int i = 0; i < len; i++) {
            freqs[nums[i]]++;
        }
        
        for (auto f : freqs) {
            if (minHeap.size() < k) {
                minHeap.push(Node(f.first));
            } else {
                //注意minHeap里面已经包含了到现在为止k个most frequent的数字,minHeap.top就是到现在为止第kth most frequent的那个数字,如果当前数字的frequency比minHeap.top还小就没有必要push进去了。注意最开始的第一个for循环已经得到了每个数字在整个数组中的frequency。这个优化很重要。
                if (f.second > freqs[minHeap.top().num]) {
                    minHeap.push(Node(f.first));
                    minHeap.pop();
                }
            }
        }

        vector<int> res;
        while (!minHeap.empty()) {
            res.push_back(minHeap.top().num);
            minHeap.pop();
        }
        return res;
    }
};

解法4:跟上面差不多,只是用了decltype的表示法。

class Solution {
public:
    vector<int> topKFrequent(vector<int>& nums, int k) {
        vector<int> res;
        map<int, int> freqs; //<num, freq>
        int n = nums.size();
        for (int i = 0; i < n; i++) {
            freqs[nums[i]]++;
        }
        auto comp = [&](int a, int b){return freqs[a] > freqs[b];};
        priority_queue<int, vector<int>, decltype(comp)> minHeap(comp);
        
        for (auto f : freqs) {
            minHeap.push(f.first);
            if (minHeap.size() > k) {
                minHeap.pop();
            }
        }
        while(k--) {
            res.push_back(minHeap.top());
            minHeap.pop();
        }
        reverse(res.begin(), res.end());
        return res;
    } 
};

另一个用minHeap的方法,直接用pair<int, int>,注意是反着用的,freq是first, num是second,这样就可以利用freq来排序,如果freq相同则利用字母顺序来排序,不需要重新定义Node。

class Solution {
public:
    vector<int> topKFrequent(vector<int>& nums, int k) {
        int n = nums.size();
        priority_queue<pair<int, int>, vector<pair<int, int>>, greater<pair<int,int>>> minHeap; // <freq, number>
        vector<int> res;
        unordered_map<int, int> num2Freq;
        for (auto n : nums) num2Freq[n]++;
        int index = 0;
        for (auto elem : num2Freq) {
            index++;
            minHeap.push({elem.second, elem.first});
            if (index > k) minHeap.pop();
        }
        while(!minHeap.empty()) {
            auto node = minHeap.top();
            minHeap.pop();
            res.push_back(node.second);
        }
        reverse(res.begin(), res.end());
        return res;
    }
};
内容概要:本文介绍了一个基于冠豪猪优化算法(CPO)的无人机三维路径规划项目,利用Python实现了在复杂三维环境中为无人机规划安全、高效、低能耗飞行路径的完整解决方案。项目涵盖空间环境建模、无人机动力学约束、路径编码、多目标代价函数设计以及CPO算法的核心实现。通过体素网格建模、动态障碍物处理、路径平滑技术和多约束融合机制,系统能够在高维、密集障碍环境下快速搜索出满足飞行可行性、安全性与能效最优的路径,并支持在线重规划以适应动态环境变化。文中还提供了关键模块的代码示例,包括环境建模、路径评估和CPO优化流程。; 适合人群:具备一定Python编程基础和优化算法基础知识,从事无人机、智能机器人、路径规划或智能优化算法研究的相关科研人员与工程技术人员,尤其适合研究生及有一定工作经验的研发工程师。; 使用场景及目标:①应用于复杂三维环境下的无人机自主导航与避障;②研究智能优化算法(如CPO)在路径规划中的实际部署与性能优化;③实现多目标(路径最短、能耗最低、安全性最高)耦合条件下的工程化路径求解;④构建可扩展的智能无人系统决策框架。; 阅读建议:建议结合文中模型架构与代码示例进行实践运行,重点关注目标函数设计、CPO算法改进策略与约束处理机制,宜在仿真环境中测试不同场景以深入理解算法行为与系统鲁棒性。
<think> 我们被要求解决Top K Frequent Elements,即给定一个整数数组nums和整数k,返回出现频率前k高的元素。 根据站内引用,有几种方法: 1. 使用哈希表统计频率,然后使用优先队列()来获取前k个元素(引用[2]和引用[3]) 2. 使用桶排序的思想(引用[4]) 我将介绍这两种方法,并给出代码示例(以C++、Java和Python为例)。 方法一:最小(优先队列) 思路: - 先用哈希表统计每个数字出现的频率。 - 然后使用一个最小(按频率排序),的大小保持为k。遍历哈希表的每个元素,将元素加入中,如果的大小超过k,则弹出顶(频率最小的元素)。这样,中剩下的就是频率最大的k个元素。 - 注意:最小通常比较的是元素的频率。在C++中,priority_queue默认是大顶,所以我们可以通过自定义比较函数来构建最小。或者我们也可以使用大顶,但需要将全部元素放入中,然后取前k个,这样效率较低(O(nlogk) vs O(nlogn))。因此,我们采用最小,保持的大小为k,这样效率更高。 方法二:桶排序 思路: - 先用哈希表统计每个数字出现的频率。 - 然后创建一个数组(桶),数组的下标表示频率,数组的元素是一个列表,存储该频率下的所有数字。 - 由于同一个频率可能有多个数字,所以我们需要一个列表数组。 - 然后从高频率到低频率遍历桶,取出k个数字即可。 下面分别实现这两种方法。 方法一(最小)的步骤: 1. 遍历数组,用哈希表记录每个数字出现的频率。 2. 初始化一个最小(优先队列),中元素为(频率,数字)。注意:最小根据频率比较,所以我们可以将频率作为键,但是注意最小顶是最小元素,而我们想要保留的是频率大的,所以当的大小超过k时,我们就弹出顶(当前最小的频率),这样最后剩下的就是最大的k个。 3. 遍历哈希表,将每个数字和其频率组成对加入中,同时控制的大小不超过k。 4. 最后,将中的元素取出(注意:中元素是频率从大到小?实际上,最小顶是最小的,所以最后中保存的是最大的k个,但是顶是最小的那个,所以取出来的时候顺序无所谓,我们只要数字即可)。 方法二(桶排序)的步骤: 1. 遍历数组,用哈希表记录每个数字出现的频率。 2. 创建桶数组,桶数组的长度为数组长度+1(因为频率最大为数组长度)。 3. 遍历哈希表,将数字放入对应的频率桶中。 4. 从桶数组的最后一个(即最高频率)开始向前遍历,将桶中的数字加入结果列表,直到结果列表中有k个元素。 下面用代码展示: 注意:由于站内引用提供了C++的代码(引用[2]使用了大顶,但效率不高),我们将按照更高效的最小方法实现。桶排序的方法在引用[4]中也有。 我们以三种语言实现最小方法,两种语言实现桶排序方法(因为桶排序方法在引用[4]中是Java,我们将用Python实现桶排序)。 首先,方法一(最小)的代码: C++版本(使用STL的priority_queue,注意构建最小): ```cpp #include <vector> #include <queue> #include <unordered_map> using namespace std; class Solution { public: vector<int> topKFrequent(vector<int>& nums, int k) { unordered_map<int, int> freq; for (int num : nums) { freq[num]++; } // 构建最小,使用pair,第一个元素是频率,第二个元素是数字 // 自定义比较函数,注意priority_queue默认是大顶,所以我们需要使用greater并配合pair auto cmp = [](pair<int, int>& a, pair<int, int>& b) { return a.first > b.first; // 最小,比较频率 }; priority_queue<pair<int, int>, vector<pair<int, int>>, decltype(cmp)> pq(cmp); for (auto& [num, count] : freq) { pq.push({count, num}); if (pq.size() > k) { pq.pop(); // 弹出最小的那个 } } vector<int> res; while (!pq.empty()) { res.push_back(pq.top().second); pq.pop(); } // 注意:这样取出的顺序是从小到大(因为顶是最小的频率,我们每次弹出的是最小的,最后剩下的在底是较大的,但弹出时先弹顶,所以res中顺序是频率由小到大,不过目不要求顺序,但有时要求从大到小,我们可以反转一下,但目不要求顺序,所以可以不反转) // 但是目要求顺序任意,所以直接返回即可。 return res; } }; ``` Java版本(使用PriorityQueue,注意Java的PriorityQueue默认是最小,但我们需要最小,所以使用最小,但注意比较器的写法): ```java class Solution { public int[] topKFrequent(int[] nums, int k) { Map<Integer, Integer> frequencyMap = new HashMap<>(); for (int num : nums) { frequencyMap.put(num, frequencyMap.getOrDefault(num, 0) + 1); } // 创建最小,按照频率升序(顶是频率最小的) PriorityQueue<Map.Entry<Integer, Integer>> pq = new PriorityQueue<>((a, b) -> a.getValue() - b.getValue()); for (Map.Entry<Integer, Integer> entry : frequencyMap.entrySet()) { pq.offer(entry); if (pq.size() > k) { pq.poll(); // 弹出顶(当前最小的) } } int[] res = new int[k]; int idx = 0; while (!pq.isEmpty()) { res[idx++] = pq.poll().getKey(); } return res; } } ``` Python版本(使用heapq,注意heapq是最小): ```python import heapq from collections import defaultdict class Solution: def topKFrequent(self, nums: List[int], k: int) -> List[int]: freq = defaultdict(int) for num in nums: freq[num] += 1 # 使用最小,我们存储的是(频率,数字),注意的大小为k heap = [] for num, count in freq.items(): heapq.heappush(heap, (count, num)) if len(heap) > k: heapq.heappop(heap) # 此时中就是最大的k个,但是每个元素是(count, num),我们只需要num return [item[1] for item in heap] ``` 注意:在Python中,heapq是最小,所以顶是最小的频率。我们每次push后,如果的大小超过k,就pop掉最小的那个,这样最后剩下的就是最大的k个。 方法二:桶排序(以Python实现,因为引用[4]中提供了Java版本,这里我们用Python) 步骤: 1. 统计频率。 2. 创建桶,桶的索引表示频率,桶中存储该频率下的所有数字。 3. 从高频率到低频率遍历桶,直到收集到k个元素。 Python版本: ```python from collections import defaultdict class Solution: def topKFrequent(self, nums: List[int], k: int) -> List[int]: freq = defaultdict(int) max_freq = 0 for num in nums: freq[num] += 1 if freq[num] > max_freq: max_freq = freq[num] # 创建桶,索引0不使用,从1到max_freq buckets = [[] for _ in range(max_freq+1)] for num, count in freq.items(): buckets[count].append(num) res = [] # 从最高频率开始向下遍历 for i in range(max_freq, 0, -1): if buckets[i]: for num in buckets[i]: res.append(num) if len(res) == k: return res return res ``` 注意:桶排序的方法时间复杂度为O(n),但是当频率分布不均匀(比如很多不同的频率)并且n很大时,桶的空间可能比较大,但实际效率还是很高。 两种方法比较: - 最小方法:时间复杂度O(nlogk),空间复杂度O(n)(哈希表和) - 桶排序方法:时间复杂度O(n),空间复杂度O(n)(哈希表和桶) 因此,桶排序方法在时间复杂度上更优,但空间复杂度可能较高(如果频率分布很分散,但实际频率最大为n,所以需要长度为n+1的桶,而每个桶里存数字,总数字个数为不同数字的个数,所以空间是O(n))。 根据实际情况选择方法。 下面生成相关问: </think> ### 解决 Top K Frequent Elements的算法 #### 方法一:最小(优先队列)法 **时间复杂度**:$O(n \log k)$,空间复杂度:$O(n)$ **步骤**: 1. **统计频率**:使用哈希表记录每个元素出现次数 2. **维护最小**:保持大小为 $k$,顶是当前最小频率元素 3. **提取结果**:中剩余元素即为 Top K 高频元素 ```python import heapq from collections import Counter def topKFrequent(nums, k): freq = Counter(nums) heap = [] for num, count in freq.items(): heapq.heappush(heap, (count, num)) if len(heap) > k: heapq.heappop(heap) # 移除最小元素 return [num for _, num in heap] # 示例 print(topKFrequent([1,1,1,2,2,3], 2)) # 输出: [1,2] ``` #### 方法二:桶排序法 **时间复杂度**:$O(n)$,空间复杂度:$O(n)$ **步骤**: 1. **统计频率**:使用哈希表记录频率 2. **创建频率桶**:索引表示频率,值存储对应元素 3. **反向遍历桶**:从高频率向低频率提取元素 ```python from collections import defaultdict def topKFrequent(nums, k): freq = defaultdict(int) max_freq = 0 for num in nums: freq[num] += 1 max_freq = max(max_freq, freq[num]) buckets = [[] for _ in range(max_freq+1)] for num, count in freq.items(): buckets[count].append(num) res = [] for i in range(max_freq, 0, -1): if buckets[i]: res.extend(buckets[i]) if len(res) >= k: return res[:k] return res ``` #### 方法三:快速选择法(Hoare's 选择) **时间复杂度**:平均 $O(n)$,最坏 $O(n^2)$,空间复杂度:$O(n)$ ```python import random from collections import Counter def topKFrequent(nums, k): freq = Counter(nums) unique = list(freq.keys()) def partition(left, right): pivot_idx = random.randint(left, right) pivot_freq = freq[unique[pivot_idx]] unique[pivot_idx], unique[right] = unique[right], unique[pivot_idx] i = left for j in range(left, right): if freq[unique[j]] > pivot_freq: # 按频率降序排列 unique[i], unique[j] = unique[j], unique[i] i += 1 unique[i], unique[right] = unique[right], unique[i] return i def quickselect(left, right): if left == right: return pos = partition(left, right) if pos == k-1: return elif pos < k-1: quickselect(pos+1, right) else: quickselect(left, pos-1) quickselect(0, len(unique)-1) return unique[:k] ``` ### 算法对比 | 方法 | 时间复杂度 | 空间复杂度 | 适用场景 | |--------------|------------------|------------|------------------------------| | **最小** | $O(n \log k)$ | $O(n)$ | $k$ 远小于 $n$ 时最优 | | **桶排序** | $O(n)$ | $O(n)$ | 频率分布均匀时最优 | | **快速选择** | $O(n)$ (平均) | $O(n)$ | 需要部分排序时最优 | ### 关键点说明 1. **最小方法**中,大小保持为 $k$ 确保时间复杂度优化为 $O(n \log k)$ 而非 $O(n \log n)$[^2][^3] 2. **桶排序**利用数组索引直接对应频率,反向遍历实现 $O(n)$ 时间复杂度[^4] 3. **快速选择**本质是快速排序的变种,在平均情况下可达到线性时间复杂度[^1]
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值