本文是LLM系列文章,针对《Alignment Studio: Aligning Large Language Models to Particular Contextual Regulations》的翻译。
对齐Studio:使大型语言模型与特定的上下文规则相一致
摘要
大型语言模型的对齐通常由模型提供者完成,以添加或控制在用例和上下文中常见或普遍理解的行为。相反,在本文中,我们提出了一种方法和架构,使应用程序开发人员能够根据其特定的价值观、社会规范、法律和其他法规调整模型,并在上下文中协调潜在的冲突需求。我们列出了这样一个Alignment Studio架构的三个主要组件:Framers、Instructors和Auditors,它们协同工作以控制语言模型的行为。我们用一个运行的例子来说明这种方法,该例子将公司面向内部的企业聊天机器人与其商业行为准则相一致。
引言
对齐studio与治理
FRAMERS
INSTRUCTORS
AUDITORS
概要演示
结论
我们提出了一种原则性的方法,以使LLM与特定的上下文法规保持一致,并提供了一个强