本文是LLM系列文章,针对《Impact of Non-Standard Unicode Characters on Security and Comprehension in Large Language Models》的翻译。
非标准 Unicode 字符对大型语言模型中安全性和理解性的影响
摘要
大型语言模型的进步显著改善了自然语言处理。然而,越狱(提示注入导致 LLM 遵循与其预期用途相反的指示)、幻觉(产生不正确或误导性信息)和理解错误等挑战仍然普遍存在。在本报告中,我们对 15 个不同模型的性能进行了比较分析,每个模型都经过标准化测试,包括三个关键指标的 38 个查询:越狱、幻觉和理解错误。这些模型是根据越狱、幻觉和理解错误的总发生率进行评估的。我们的工作揭示了这些模型的内在脆弱性,并挑战了这些模型的人类水平语言理解的概念。我们实证分析了非标准 Unicode 字符对 LLM 的影响及其保护机制对表现最佳的 LLM,包括 GPT-4、Gemini 1.5 Pro、LlaMA-3-70B 和 Claude 3 Opus。通过在标准拉丁语块之外合并来自 Unicode 的字母数字符号和其他语言中的字符变体,我们观察到通过强化学习人类反馈 (RLHF) 实施的护栏的有效性降低。因此,这些模型表现出更高的易受内容策略违规和提示泄露的影响。我们的研究还表明,需要在 LLM 训练数据中加入非标准 Unicode 文本,以增强这些模型的功能。
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



