一、问题缘起:大模型联网搜索的脆弱性
大模型(如DeepSeek)的幻觉率攀升与联网搜索机制密切相关。其核心漏洞在于:
- 爬虫缺陷:模型依赖的爬虫可能抓取低质量或恶意内容,未建立有效的数据清洗流程。
- 标签污染:攻击者可通过注入虚假数据对,误导模型训练,例如将"网络钓鱼"标签篡改为"合法邮件"。
- 动态更新风险:周期性使用新数据训练时,攻击者可利用未清洗的数据实施投毒。
案例佐证:
- DeepSeek R1的幻觉率达14.3%(GPT-4为2.4%),显示其抗污染能力较弱。
- 模型爬虫抓取的污染数据直接进入训练流程,导致逻辑错误和常识性错误累积。
二、核心问题与解决方案
1. 针对性、矩阵式批量投毒攻击
攻击手法:
- 模型文件篡改:
- 利用底层库漏洞(如Transformers库的CVE-2024-3568)触发远程代码执行(RCE)。
- 通过
trust_remote_code参数加载恶意代码,控制模型行为。
- 数据集污染:
- 嵌入恶意脚本(如Hugging Face Datasets库的特性被滥用)。
- 标签投毒:修改数据标签(如将"糖尿病"关联错误治疗建议)。
- 训练过程干扰:
- 中间层扰动:在模型层(如

最低0.47元/天 解锁文章
574

被折叠的 条评论
为什么被折叠?



