UVA679 Dropping Balls

文章描述了一种基于满二叉树的问题,小球按照特定规则下落并改变节点的布尔值,影响其后续路径。通过分析奇偶性,提出了一种避免使用大数组的优化算法,通过递归的思想动态计算小球停止时的叶子节点序号。

小球下落 Dropping Balls

题目描述

许多的小球一个一个的从一棵满二叉树上掉下来组成一个新满二叉树,每一时间,一个正在下降的球第一个访问的是非叶子节点。然后继续下降时,或者走右子树,或者走左子树,直到访问到叶子节点。
决定球运动方向的是每个节点的布尔值。最初,所有的节点都是 FALSE,当访问到一个节点时,如果这个节点是 FALSE,则这个球把它变成 TRUE,然后从左子树走,继续它的旅程。如果节点是TRUE,则球也会改变它为 FALSE,而接下来从右子树走。满二叉树的标记方法如下图。
因为所有的节点最初为 FALSE,所以第一个球将会访问节点 1,节点 2 和节点 4,转变节点的布尔值后在在节点 8 停止。第二个球将会访问节点 1、3、6,在节点 12 停止。明显地,第三个球在它停止之前,会访问节点 1、2、5,在节点 10 停止。
现在你的任务是,给定新满二叉树的深度 d 和下落的小球的编号 i ,可以假定I不超过给定的新满二叉树的叶子数,写一个程序求小球停止时的叶子序号p。
在这里插入图片描述

样例 #1

样例输入 #1

5
4 2
3 4
10 1
2 2
8 128
-1

样例输出 #1

12
7
512
3
255

分析

这道题比较直白,直接告诉我们是一个二叉树的题目,总体意思,就是相邻的两个小球在相同的节点处必然一个向左一个向右。根据题目给出的测试数据的大小,不难想到直接使用一个数组来模拟二叉树的想法,代码也很好写。

#include <iostream>
#include <cstring>
using namespace std;

bool nodes[1 << 20];

int main(int argc, char **argv){
	int cases = 0;
	cin >> cases;
	int D = 0, I = 0;
	while(true){
		
		cin >> D;
		if(D == -1){
			break;
		}
		cin >> I;
		memset(nodes, 0, 1<<D);
		int index = 0;
		while(I-- > 0){
			index = 0;
			while(2*index + 1 < (1<<D)-1){
				nodes[index] = !nodes[index];
				if(nodes[index]){
					index = 2*index + 1;
				}else{
					index = 2*index + 2;
				}
			}
		}
		cout << index+1 << endl;
	}
	return 0;
}

但是这样写会超时。
如果从另一个角度想,树是具有递归定义的,所以当小球从上一层调入下一层的时候,这时又是一个小球掉落的问题,只不过此时树的根节点变成了当前小球掉入的节点吗,此时我们只要更新一下 I 和 D,就能使用我们上述的算法再次解决该问题。
D的值表示树的深度,显然每一次树的深度是递减的,所以关键问题是怎么更新 I 的值
根据题目的描述,对于树中的每一个节点,每经过2个小球,则该节点就恢复了原本的状况,也就是第奇数个小球到来的时候,就要走左子树,第偶数个小球到来的时候,就要走右子树。
分析得知,我们的问题变成了如何求到达该节点的小球是第几个(指奇偶)到达该节点的(说的好像有点拗口)。

  • 如果 I 是偶数,则 I = I / 2
  • 如果 I 是奇数,则 I = (I + 1) / 2

其实就是,经过该节点的小球个数比经过该节点父节点的小球个数少一半。
这样写出来,不需要创建一个很大的数组,而且是根据 I 的奇偶直接找到最后一个小球的路径。

#include <iostream>
using namespace std;

int main(int argc, char **argv){
	int cases = 0;
	cin >> cases;
	while(true){
		int D = 0;
		cin >> D;
		if(D == -1){
			break;
		}
		int I = 0;
		cin >> I;
		int index = 0;
		for(int i = 0; i < D; i++){
			if(2*index+1 >= (1<<D)-1){
				break;
			}
			if(I%2 == 0){
				I = I / 2;
				index = 2 * index + 2;
			}else{
				I = (I + 1) / 2;
				index = 2 * index + 1;
			}
			
		}
		cout << index+1 << endl;
	}
	return 0;
}
KV Cache Dropping 是一种用于优化大语言模型(LLM)推理过程中内存使用的技术,特别是在处理长序列时减少KV Cache(Key-Value Cache)的存储开销。其核心思想是通过选择性地丢弃(drop)部分KV对,以降低内存占用并提升推理效率,同时尽量不影响模型输出的质量。 ### KV Cache Dropping 的技术原理 在自回归生成任务中,KV Cache 用于存储每个已生成 token 对应的 Key 和 Value 向量,以便在后续的 Attention 计算中快速获取历史信息。随着生成序列的增长,KV Cache 的内存占用也随之线性增长。KV Cache Dropping 通过以下方式缓解这一问题: 1. **基于注意力机制的冗余性**:在实际生成过程中,某些历史 token 对当前 token 的预测影响较小,这些 token 对应的 KV 对可以被视为冗余。通过识别并丢弃这些冗余的 KV 对,可以在不显著影响输出质量的前提下减少内存消耗。 2. **动态筛选机制**:一些 Dropping 策略会根据当前 token 与历史 token 的相关性动态决定是否保留某个 KV 对。例如,通过计算 Query 向量与 Key 向量之间的相似度,若相似度低于一定阈值,则认为该 KV 对对当前 Attention 计算贡献较小,从而选择丢弃。 3. **静态策略**:某些方法采用固定的策略,例如每隔一定步数丢弃部分 KV 对,或者仅保留最近的 N 个 token 的 KV 对。 ### 应用场景 KV Cache Dropping 主要适用于以下几种场景: - **长文本生成任务**:在生成较长文本(如文章、对话等)时,KV Cache 的内存占用会显著增加。Dropping 技术可以有效控制内存使用,使模型在有限硬件资源下仍能处理长序列。 - **边缘设备推理**:在资源受限的设备(如移动设备或嵌入式系统)上部署大语言模型时,内存优化尤为重要。KV Cache Dropping 可以帮助降低内存需求,提高推理效率。 - **实时推理服务**:在需要低延迟的推理服务中,减少 KV Cache 的大小可以加快 Attention 计算,从而提升整体响应速度。 ### 示例代码 以下是一个简化的 KV Cache Dropping 实现逻辑,假设我们使用基于相似度的动态筛选策略: ```python import torch import torch.nn.functional as F def drop_kv_cache(query, key, value, threshold=0.5): """ 根据Query和Key之间的相似度决定是否丢弃部分KV对。 :param query: 当前Query向量 (batch_size, head_num, seq_len, dim) :param key: 历史Key向量 (batch_size, head_num, seq_len, dim) :param value: 历史Value向量 (batch_size, head_num, seq_len, dim) :param threshold: 相似度阈值 :return: 经过Drop后的Key和Value """ # 计算Query与Key之间的相似度(点积) similarity = torch.matmul(query, key.transpose(-2, -1)) # (batch_size, head_num, seq_len, seq_len) # 取最后一个Query与其他Key的相似度 last_similarity = similarity[:, :, -1, :] # (batch_size, head_num, seq_len) # 计算平均相似度 avg_similarity = last_similarity.mean(dim=1) # (batch_size, seq_len) # 判断是否保留每个KV对 mask = avg_similarity > threshold # 应用mask,保留符合条件的KV对 new_key = key[:, :, mask, :] new_value = value[:, :, mask, :] return new_key, new_value ``` ### 相关问题 1. KV Cache Dropping 技术相比其他 KV Cache 优化方法有哪些优势? 2. 如何评估 KV Cache Dropping 对生成质量的影响? 3. 在实际部署中,如何动态调整 KV Cache Dropping 的阈值? 4. KV Cache Dropping 是否会影响模型的推理速度? 5. 有哪些开源框架或工具支持 KV Cache Dropping 技术? [^2]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值