本文是LLM系列文章,针对《Self-Alignment of Large Language Models via Monopolylogue-based Social Scene Simulation》的翻译。
基于独白的社会场景模拟实现大型语言模型的自我对齐
摘要
将大型语言模型(LLM)与人类价值观相结合,对于减轻其滥用带来的潜在不利影响至关重要。从社会学的视角来看,承认各方的关切是塑造人类价值观的关键因素,本文提出了一个新的方向来调整LLM:社会场景模拟。为了实现这一点,我们提出了MATRIX,这是一种新颖的社交场景模拟器,它模拟用户输入查询周围的真实场景,使LLM能够在响应之前考虑社会后果。MATRIX是一个虚拟排练空间,类似于独白,LLM在这里独自扮演与查询和练习相关的各种角色。为了注入这种对齐,我们使用MATRIX模拟数据对LLM进行微调,确保在不影响推理速度的情况下遵守人类价值观。我们从理论上证明,在温和的假设下,带矩阵的LLM优于宪法人工智能。最后,大量实验验证了我们的方法在4个基准测试中优于10个基线。875个用户评分证明,我们微调的13B大小LLM在与人类价值观一致方面超过了GPT-4。我们的项目页面位于https://shuotang123.github.io/MATRIX.