leetcode 692. 前K个高频单词

本文介绍如何使用C++实现统计给定单词列表中前k个出现最频繁的单词,按频率降序并保持字典序。通过map和multimap的数据结构,确保稳定性和效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

给定一个单词列表 words 和一个整数 k ,返回前 k 个出现次数最多的单词。

返回的答案应该按单词出现频率由高到低排序。如果不同的单词有相同出现频率, 按字典顺序排序。

示例 1:

输入: words = [“i”, “love”, “leetcode”, “i”, “love”, “coding”], k = 2
输出: [“i”, “love”] 解析: “i” 和 “love” 为出现次数最多的两个单词,均为2次。
注意,按字母顺序 “i” 在 “love” 之前。

示例 2:

输入: [“the”, “day”, “is”, “sunny”, “the”, “the”, “the”, “sunny”, “is”,“is”], k = 4
输出: [“the”, “is”, “sunny”, “day”]
解析: “the”, “is”, “sunny” 和 “day” 是出现次数最多的四个单词,
出现次数依次为 4, 3, 2 和 1 次。

注意:

  • 1 <= words.length <= 500
  • 1 <= words[i] <= 10
  • words[i] 由小写英文字母组成。
  • k 的取值范围是 [1, 不同 words[i] 的数量]

思路:

  • 统计单词列表 words中单词出现的次数
  • 再按次数排序(由大到小排序),这样使得相同次数的单词顺序不会打乱,相当于是稳定的
  • 将排序好的前k个单词,放入到vector < string > 数组中即可

代码如下:

class Solution {
public:
    vector<string> topKFrequent(vector<string>& words, int k) 
    {
        //统计次数,string按字典序排序
        map<string,int> countmap;
        for(const auto e:words)
        {
            countmap[e]++;
        }
        //按次数排序,相同次数的单词顺序不会打乱,相当于是稳定的
        multimap <int,string,greater<int>> sortmap;
        for(const auto e:countmap)
        {
            sortmap.insert(make_pair(e.second,e.first));
        }
        vector<string> ret;
        for(const auto e:sortmap)
        {
            ret.push_back(e.second);
            if(--k==0)   //前K个高频单词放入到ret
                break;
        }
        return ret; 
    }
};

注意:

  • 如果用sort,sort的底层是快速排序,快速排序是不稳定的。
  • 用sort排完序之后,要将不同的单词有相同出现频率再进行比较
### 解决方案解析 对于LeetCode692K个高频单词,解决方案主要依赖于构建频率映射对其进行排序处理[^1]。 #### 构建频率映射 通过遍历给定的字符串列表`words`来统计每个单词出现次数。可以利用Python内置的数据结构`collections.Counter()`快速完成这一步骤,该方法能够接收一个可迭代对象作为输入参数,返回一个新的计数器字典实例,其中元素被当作键而它们的数量则成为对应的值。 ```python from collections import Counter count = Counter(words) ``` 此段代码创建了一个名为`count`的对象,它存储着各个单词及其对应次的信息。 #### 排序逻辑实现 为了获取最高次的单词集合,在完成了上述词统计之后还需要进一步操作。具体来说就是先依据频率大小降序排列这些项;当遇到相同频率的情况,则按照字母顺序升序排列。这里可以通过调用`sorted()`函数配合自定义比较规则达成目标: ```python items = sorted(count.items(), key=lambda item: (-item[1], item[0])) ``` 这段代码实现了基于两个条件(即频率逆序和名称正序)对项目进行综合排序的功能。注意这里的负号用于指示按第一个字段做降序排列。 #### 提取最终结果 最后只需要从述已排好序的结果集中选取k个条目的key部分即可得到所求答案。这部分工作可通过简单的切片语法轻松搞定: ```python result = [item[0] for item in items[:k]] return result ``` 综上所述,完整的算法流程涵盖了三个核心环节:建立频率表、实施多维度排序以及截取出指定数量的最大值记录。 ```python import heapq from typing import List from collections import Counter class Solution: def topKFrequent(self, words: List[str], k: int) -> List[str]: count = Counter(words) heap = [(-freq, word) for word, freq in count.items()] largest = heapq.nsmallest(k, heap) return [word for _, word in largest] ``` 以上便是针对本道习题较为简洁高效的解答方式之一。
评论 44
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值