Exploring Cross-Client Memorization of Training Data in Large Language Models for Federated Learning

该文章聚焦联邦学习(FL)中大型语言模型(LLMs)的跨客户端训练数据记忆问题,提出了新的评估框架并揭示了影响记忆的关键因素,填补了集中式学习(CL)记忆评估方法在FL场景的应用空白。

一、文章主要内容

  1. 研究背景

    • FL虽能实现多客户端协同训练且不共享原始数据,但LLMs仍存在训练数据记忆风险,可能泄露敏感信息。
    • 现有FL记忆检测技术(如金丝雀注入)仅关注单样本记忆,低估跨样本记忆风险;而CL的细粒度跨样本记忆评估方法因依赖集中式数据,无法直接应用于FL。
  2. 核心框架

    • 提出量化FL中客户端内(Intra-client)客户端间(Inter-client) 记忆的框架,通过 pairwise 技术扩展CL方法,评估不同客户端前缀诱导模型记忆其他客户端后缀的程度。
    • 采用PAN2014抄袭检测器,从逐字(Verbatim)释义(Paraphrase)观点(Idea) 三个粒度衡量文本相似度,判断模型是否记忆。
  3. 关键实验与发现

    • 记忆存在性:FL模型确实会记忆训练数据,且客户端内记忆(如同一客户端前缀记忆自身后缀)普遍
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值