Privacy-Aware Semantic Cache for Large Language Models

本文是LLM系列文章,针对《Privacy-Aware Semantic Cache for Large Language Models》的翻译。

摘要

像ChatGPT和Llama2这样的大型语言模型(LLM)已经彻底改变了自然语言处理和搜索引擎动力学。然而,这些模型产生了异常高的计算成本。例如,GPT-3由1750亿个参数组成,其中推理需要数十亿次浮点运算。缓存是降低重复查询LLM推理成本的自然解决方案,重复查询约占总查询的31%。然而,现有的缓存方法无法找到LLM查询之间的语义相似性,导致了不可接受的错误命中率。
本文介绍了MeanCache,这是一种以用户为中心的LLM语义缓存,用于识别语义相似的查询,以确定缓存命中或未命中。使用MeanCaches,可以从本地缓存中检索对用户语义相似查询的响应,而不是重新查询LLM,从而降低成本、服务提供商负载和环境影响。LLM的现有缓存解决方案引起了对隐私和可扩展性的担忧,并执行了浪费的查询请求。MeanCache利用联合学习(FL)在不侵犯隐私的情况下,跨LLM用户协作训练查询相似性模型。通过在每个用户的设备中放置本地缓存并使用FL,MeanCache减少了延迟和成本,并提高了模型性能,从而降低了误命中率。MeanCache压缩嵌入维度以最小化缓存存储,并找到最佳余弦相似性阈值。我们的实验以最

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值