Privacy-Aware Semantic Cache for Large Language Models

UnknownBody

已于 2024-06-18 17:36:15 修改

阅读量110

点赞数

CC 4.0 BY-SA版权

分类专栏： LLM Daily LLM Security and Privacy 文章标签：语言模型人工智能自然语言处理

于 2024-06-18 17:35:57 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/139779437

LLM Daily 同时被 2 个专栏收录

1394 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM Security and Privacy

72 篇文章

订阅专栏

本文是LLM系列文章，针对《Privacy-Aware Semantic Cache for Large Language Models》的翻译。

大型语言模型的隐私感知语义缓存

摘要
1 引言
2 实践中的类似用户查询
3 背景
4 MEANCACHE的设计
5 评估
6 相关工作
7 结论

摘要

像ChatGPT和Llama2这样的大型语言模型（LLM）已经彻底改变了自然语言处理和搜索引擎动力学。然而，这些模型产生了异常高的计算成本。例如，GPT-3由1750亿个参数组成，其中推理需要数十亿次浮点运算。缓存是降低重复查询LLM推理成本的自然解决方案，重复查询约占总查询的31%。然而，现有的缓存方法无法找到LLM查询之间的语义相似性，导致了不可接受的错误命中率。
本文介绍了MeanCache，这是一种以用户为中心的LLM语义缓存，用于识别语义相似的查询，以确定缓存命中或未命中。使用MeanCaches，可以从本地缓存中检索对用户语义相似查询的响应，而不是重新查询LLM，从而降低成本、服务提供商负载和环境影响。LLM的现有缓存解决方案引起了对隐私和可扩展性的担忧，并执行了浪费的查询请求。MeanCache利用联合学习（FL）在不侵犯隐私的情况下，跨LLM用户协作训练查询相似性模型。通过在每个用户的设备中放置本地缓存并使用FL，MeanCache减少了延迟和成本，并提高了模型性能，从而降低了误命中率。MeanCache压缩嵌入维度以最小化缓存存储，并找到最佳余弦相似性阈值。我们的实验以最先进的缓存方法为基准，表明在语义缓存命中和未命中决策过程中，MeanCache的F分数提高了约17%，精度提高了20%。它还将存储需求减少了83%，并将语义缓存命中和未命中决策加速了11%。

1 引言

2 实践中的类似用户查

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。