topK 算法

本文介绍了一种使用SQL查询语句来分别获取男生和女生的前五名成绩的方法。通过将两个子查询(分别针对不同性别)联合起来并限制每个子集返回的成绩数量,可以有效地实现这一目标。

有一张表t_stu;其中三个字段:name,gender,grade;要求用一条sql语句查出男生前5名和女生前五名。 

create table t_stu
(
   id int(11),
   name varchar(20),
   gender int(2),
   grade int(12)
)

insert into t_stu values
(1,'Alex',1,91),
(2,'Elena',0,92),
(3,'Alex2',1,81),    
(4,'Elena2',0,82),   
(5,'Alex3',1,71),    
(6,'Elena3',0,72),   
(7,'Alex4',1,61),     
(8,'Elena4',0,62),    
(9,'Alex5',1,51),     
(10,'Elena5',0,52),    
(11,'Alex6',1,101),     
(12,'Elena6',0,1022); 

(
SELECT * 
FROM t_stu 
where gender=0
order by grade  desc
limit 5
)
union
(
 select *
 from t_stu
 where gender=1
 order by grade desc
 limit 5
)
 


 
### TopK算法的实现 TopK算法的核心在于高效地找到一组数据中的前 K 大或前 K 小元素。其实现有多种方法,其中基于堆排序的思想是最常用的之一。 #### 基于最大堆/最小堆的实现 当需要寻找前 K 大的元素时,可以构建一个小顶堆;反之,如果要找前 K 小,则构建大顶堆。以下是具体过程: 1. **初始化**:创建一个大小为 k 的小顶堆(假设需求是前 K 大),并将输入序列的前 k 个元素放入堆中。 2. **比较与替换**:对于后续每一个新元素,将其与当前堆顶元素对比。如果大于堆顶元素,则弹出堆顶并插入此新元素到堆中[^1]。 3. **最终结果**:遍历结束后,堆内的所有元素即为目标集合中的前 K 大值。 这种方法的时间复杂度主要由两部分组成——建立初始堆 O(k) 处理剩余 n-k 项每项操作平均耗时 logk ,因此总体时间复杂度为 O(nlogk)。 ```python import heapq def top_k_largest(nums, k): min_heap = nums[:k] heapq.heapify(min_heap) # 构建小根堆 for num in nums[k:]: if num > min_heap[0]: heapq.heappushpop(min_heap, num) return sorted(min_heap, reverse=True) nums = [7, 10, 4, 3, 20, 15] k = 3 print(top_k_largest(nums, k)) ``` 上述代码展示了如何利用 Python 自带库 `heapq` 来完成这一任务[^2]。 ### 应用场景分析 TopK 算法广泛应用于各种领域之中,尤其是在大数据背景下显得尤为重要。下面列举几个典型例子: - **电商平台推荐系统**: 如题目所提到,在线购物网站会通过统计用户的购买行为记录,运用 TopK 技术筛选出销量最高的一些产品作为热销榜单展示给消费者。 - **搜索引擎优化(SEO)**: 对网页点击率进行排,选取访问次数最多的页面链接呈现给用户查看。 - **社交网络热点话题追踪**: 根据帖子转发量、评论数量等因素综合评估得出当天最热门讨论主题列表。 - **金融风控模型建设**: 银行业务里常需监控异常交易活动情况,借助此类技术能够迅速定位潜在风险较高的账户群体。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值