Self-Alignment of Large Language Models via Monopolylogue-based Social Scene Simulation

828 篇文章

已下架不支持订阅

本文提出了一种名为MATRIX的社会场景模拟器,用于调整大型语言模型(LLM),使其在响应前考虑社会后果。通过MATRIX进行微调,LLM能更好地遵循人类价值观,实验表明这种方法在多个基准测试中超越了GPT-4。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Self-Alignment of Large Language Models via Monopolylogue-based Social Scene Simulation》的翻译。

摘要

将大型语言模型(LLM)与人类价值观相结合,对于减轻其滥用带来的潜在不利影响至关重要。从社会学的视角来看,承认各方的关切是塑造人类价值观的关键因素,本文提出了一个新的方向来调整LLM:社会场景模拟。为了实现这一点,我们提出了MATRIX,这是一种新颖的社交场景模拟器,它模拟用户输入查询周围的真实场景,使LLM能够在响应之前考虑社会后果。MATRIX是一个虚拟排练空间,类似于独白,LLM在这里独自扮演与查询和练习相关的各种角色。为了注入这种对齐,我们使用MATRIX模拟数据对LLM进行微调,确保在不影响推理速度的情况下遵守人类价值观。我们从理论上证明,在温和的假设下,带矩阵的LLM优于宪法人工智能。最后,大量实验验证了我们的方法在4个基准测试中优于10个基线。875个用户评分证明,我们微调的13B大小LLM在与人类价值观一致方面超过了GPT-4。我们的项目页面位于https://shuotang123.github.io/MATRIX.

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值