TopK问题详解

最新推荐文章于 2025-03-13 10:22:26 发布

zjwreal

最新推荐文章于 2025-03-13 10:22:26 发布

阅读量6.2k

点赞数 3

分类专栏：剑指offer 文章标签： topk

本文链接：https://blog.youkuaiyun.com/zjwreal/article/details/90674978

版权

剑指offer 专栏收录该内容

80 篇文章

订阅专栏

博客围绕TopK问题展开，即从n个未排序数中获取最大的k个数。介绍了两种解决算法，一是基于partition函数，时间复杂度O(n)，空间复杂度O(1)，但会改变输入；二是用堆，时间复杂度O(nlogk)，空间复杂度O(k)，无需改变输入。还对两种算法进行了比较。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

题目描述

面试中经常会问到的一道题目：从n个未排序的数中得到的最大的k个数，称为TopK问题。（最小的k个数做法也相似）

基于partition函数

基于快速排序中的partition函数，时间复杂度为O（n），空间复杂度为O（1）；需要改变输入；

（1）根据Partition函数得到索引值index，index前的数据均大于nums[index]，index后的数据均小于nums[index]

（2）如果index = k-1，则已经划分完成；数组前k个数据即为最大的k个数

（3）如果index>k-1，begin=index+1；否则end = index-1

（4）重复（2）操作直到index = k-1

class SolutionI {
public:
    /*
     * 基于快排Partition函数
     * 时间复杂度O（n）空间复杂度O（1）需要改变输入
     */
    vector<int> getTopK(vector<int> nums, int k){
        if (nums.empty() || k > nums.size() || k<=0) return {};
        vector<int> ret;
        int begin = 0, end = nums.size()-1;
        int idx = Partition(nums,begin,end);
        while (idx != k-1){
            if (idx < k-1){
                begin = idx + 1;
                idx = Partition(nums,begin,end);
            }else{
                end = idx - 1;
                idx = Partition(nums,begin,end);
            }
        }

        for (int i = 0; i < k; ++i) {
            ret.push_back(nums[i]);
        }
        return ret;
    }

    // 返回索引值idx，idx前的元素均大于该处的元素值；idx后的元素均小于该处的元素值
    int Partition(vector<int> &nums, int begin, int end){
        if (begin > end) return begin;
        int key = nums[begin];    // 取最后一个值为基准值
        while (begin < end){
            while (nums[end] <= key && begin < end) --end;
            nums[begin] = nums[end];
            while (nums[begin] > key && begin < end) ++ begin;
            nums[end] = nums[begin];
        }
        nums[begin] = key;
        return begin;
    }
};

堆

动态维护大小为k的堆，时间复杂度为O（nlogk），空间复杂度为O（k），无需改变输入；

用multiset实现最小堆；其基于红黑树实现，查找、删除、插入时间复杂度为O（logk）

每次比较最小堆的堆顶元素（topK大元素中最小值）与当前元素，如果当前元素更大，替换该元素。

class SolutionII {
public:
    /*
     * 最小堆方法
     * 时间复杂度O（nlogk）空间复杂度O（k）
     */
    vector<int> getTopK(vector<int>& nums, int k){
        if (nums.empty() || k > nums.size() || k<1) return {};
        vector<int> ret;
        multiset<int, less<int>> m; // 最小堆，保存最大的K个数
        multiset<int, less<int>>::iterator it;
        for (int i = 0; i < nums.size(); ++i) {
            if(m.size()<k){
                m.insert(nums[i]);
            } else{
                it = m.begin();
                // 如果当前值大于topK的最小元素（最小堆堆顶），替换该值
                if (nums[i]> *it){
                    m.erase(it);
                    m.insert(nums[i]);
                }
            }
        }
        for (it = m.begin();it!=m.end();it++)
            ret.push_back(*it);

        return ret;
    }
};