Nevermind: Instruction Override and Moderation in Large Language Models

最新推荐文章于 2025-11-24 18:29:32 发布

UnknownBody

最新推荐文章于 2025-11-24 18:29:32 发布

阅读量124

点赞数

CC 4.0 BY-SA版权

分类专栏： LLM Training 文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/137451948

LLM 日更同时被 2 个专栏收录

828 篇文章

已下架不支持订阅

LLM Training

97 篇文章

订阅专栏

本文探讨了大型语言模型（LLM）在执行指令覆盖和调解的能力，特别是在处理冲突信息时。研究发现，更大规模的模型在遵循和覆盖内部知识及上下文指令方面表现更优。然而，增强指令服从性与保持安全过滤器一致性存在矛盾。解决方案可能需寻求LLM之外的机制，以确保人工智能的安全性和可信度。

本文是LLM系列文章，针对《Nevermind: Instruction Override and Moderation in Large Language Models》的翻译。

摘要

鉴于最近的大型语言模型（LLM）令人印象深刻的功能，我们研究并基准测试了最流行的专有和不同大小的开源模型，以在冲突的情况下执行显式指令，例如重写。其中包括模型在模型权重范围内覆盖知识的能力，在提示中覆盖（或缓和）提取的知识的能力以及最后执行全面越狱的能力。所进行的实验表明，有几个关键发现可以改善指令遵循——更大的模型在遵循指令方面表现最好，这些指令凌驾于内部和上下文指令之上，并且服从，甚至对错误也是如此。当通过rope缩放扩展到更长的上下文时，需要从困惑悬崖的边缘保持一个重要的缓冲区，以保持指令跟随能力。最后，我们观察到，改进指令遵循，以及随后的指令覆盖/越狱，从根本上与语言模型遵循给定安全过滤器或准则的能力不一致。因此，我们假设，安全、可信的人工智能的最有效方法应该在LLM本身之外处理。

1 引言

2 动机和相关工作

3 方法

4 讨论和结果

5 结论

LLM具有非凡的理解和响应大量信息的能力。我们发现，较大的模型在导航需要覆盖内部知识和上下文线索的指令方面表现出卓越的能力，表现出高度的服从性。引入rope缩放来扩展上下文处理引入了精心管理的缓冲区的必要性，以避免困惑悬崖，确保模型保持有效遵循指令的能力。然而，我们的研究也强调了增强模型凌驾于指令之上的能力与保持遵守安全协议和指南之间的根本紧张关系。LLM可能容易产生社会和道德上不可接受的产出，特别是考虑到他们消费的训练材料和来源广泛，以及不同文化的微妙社会和

了解本专栏