Self-Alignment of Large Language Models via Monopolylogue-based Social Scene Simulation-优快云博客

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/136869798

本文提出了一种名为MATRIX的社会场景模拟器，用于调整大型语言模型（LLM），使其在响应前考虑社会后果。通过MATRIX进行微调，LLM能更好地遵循人类价值观，实验表明这种方法在多个基准测试中超越了GPT-4。

本文是LLM系列文章，针对《Self-Alignment of Large Language Models via Monopolylogue-based Social Scene Simulation》的翻译。

摘要

将大型语言模型（LLM）与人类价值观相结合，对于减轻其滥用带来的潜在不利影响至关重要。从社会学的视角来看，承认各方的关切是塑造人类价值观的关键因素，本文提出了一个新的方向来调整LLM：社会场景模拟。为了实现这一点，我们提出了MATRIX，这是一种新颖的社交场景模拟器，它模拟用户输入查询周围的真实场景，使LLM能够在响应之前考虑社会后果。MATRIX是一个虚拟排练空间，类似于独白，LLM在这里独自扮演与查询和练习相关的各种角色。为了注入这种对齐，我们使用MATRIX模拟数据对LLM进行微调，确保在不影响推理速度的情况下遵守人类价值观。我们从理论上证明，在温和的假设下，带矩阵的LLM优于宪法人工智能。最后，大量实验验证了我们的方法在4个基准测试中优于10个基线。875个用户评分证明，我们微调的13B大小LLM在与人类价值观一致方面超过了GPT-4。我们的项目页面位于https://shuotang123.github.io/MATRIX.