本文是LLM系列文章,针对《Privacy-Aware Semantic Cache for Large Language Models》的翻译。
大型语言模型的隐私感知语义缓存
摘要
像ChatGPT和Llama2这样的大型语言模型(LLM)已经彻底改变了自然语言处理和搜索引擎动力学。然而,这些模型产生了异常高的计算成本。例如,GPT-3由1750亿个参数组成,其中推理需要数十亿次浮点运算。缓存是降低重复查询LLM推理成本的自然解决方案,重复查询约占总查询的31%。然而,现有的缓存方法无法找到LLM查询之间的语义相似性,导致了不可接受的错误命中率。
本文介绍了MeanCache,这是一种以用户为中心的LLM语义缓存,用于识别语义相似的查询,以确定缓存命中或未命中。使用MeanCaches,可以从本地缓存中检索对用户语义相似查询的响应,而不是重新查询LLM,从而降低成本、服务提供商负载和环境影响。LLM的现有缓存解决方案引起了对隐私和可扩展性的担忧,并执行了浪费的查询请求。MeanCache利用联合学习(FL)在不侵犯隐私的情况下,跨LLM用户协作训练查询相似性模型。通过在每个用户的设备中放置本地缓存并使用FL,MeanCache减少了延迟和成本,并提高了模型性能,从而降低了误命中率。MeanCache压缩嵌入维度以最小化缓存存储,并找到最佳余弦相似性阈值。我们的实验以最