研究揭示大语言模型聊天机器人易被恶意利用窃取用户隐私数据

最新推荐文章于 2025-12-06 20:30:00 发布

原创

最新推荐文章于 2025-12-06 20:30:00 发布 · 799 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #机器人 #microsoft

一支研究团队警告称，基于大语言模型构建的AI聊天机器人可以轻易被改造成恶意智能体，自动收集用户个人数据。即使是"技术经验极少"的攻击者，也可以利用OpenAI等公司提供的"系统提示词"定制工具实现这一目的。

伦敦国王学院信息学系博士后研究员肖湛（Xiao Zhan）在其论文发表前的声明中解释道："AI聊天机器人在许多不同领域都很普及，因为它们可以提供自然且引人入胜的交互体验。我们已经知道这些模型在保护信息方面并不擅长。我们的研究表明，被恶意操控的AI聊天机器人可能对人们的隐私构成更大风险——不幸的是，利用这一点出奇地容易。"

大语言模型是当前人工智能热潮中最大但也最具争议的成功案例之一。这些模型在庞大的语料库上进行训练（通常会违反版权法），将用户提示转换为"Token"，并返回统计上最可能的连续Token作为响应。当一切顺利时，这些Token会组成符合现实的答案；但有时情况并非如此。

全球数百万用户已经在向这个过度工程化的Eliza倾诉他们最深层的秘密，这为个人身份信息的泄露提供了大量机会。但肖湛和同事们发现，"提示词工程"一个现成的聊天机器人来请求更多个人数据是令人担忧地容易，而且这些机器人在此方面表现得非常出色。

研究人员在论文中写道："我们的结果显示，恶意聊天机器人智能体比基线的良性聊天机器人智能体能获取显著更多的个人信息，证明了它们在增加用户个人信息披露方面的有效性。更多参与者披露个人数据——表单形式为24%，而恶意聊天机器人智能体超过90%；更多参与者回应所有个人数据请求——表单形式为6%，而聊天机器人智能体参与者超过80%；通过聊天机器人智能体收集的个人数据更加深入，包含更丰富和更个人化的叙述。"

这项收集了502名参与者数据的实验，依赖于三个在本地运行的流行大语言模型，以避免向运营云端模型的公司暴露私人信息：Meta的Llama-3-8b-instruct和规模更大的Llama-3-70b-instruct，以及Mistral的Mistral-7b-instruct-v0.2