语言模型行为模式与认知合理性探索
1. 训练数据分类与课程学习
在训练语言模型时,对训练数据进行分类是很有意义的。可以将实例分为“容易学习”“难以学习”和“模糊”三类。容易学习的实例对模型优化最为关键,模糊实例有助于模型对分布外数据的泛化能力,而“难”实例往往对应着标注错误或异常值。这种分类方式能为课程学习确定一个有用的顺序。
2. 测试模型行为
2.1 图灵测试
判断模型行为是否具有认知合理性,最广为人知的测试是图灵测试。若人类与模型交互时无法分辨回复是来自计算模型还是人类,则认为模型通过该测试。不过,此测试成本高,需要人类参与者,且结果难以比较,因为人类的调查过程不受约束,受主观偏好影响。
2.2 测试数据集
为更直接评估模型的认知合理性,测试数据集可自动将模型与预期的人类查询进行比较。可以大致分为对预训练语言模型的一般语言现象测试和对微调模型的特定任务鲁棒性测试。
2.2.1 测试语言现象
人类能通过组合原则将语言处理技能推广到未见过的句子。但近期研究表明,语言模型更多依赖记忆效果,难以推广到领域外数据。开发近似模型语言能力的系统测试是可解释性研究的一个子领域。
- 最小对 :语言现象常通过最小对的差异来描述。例如,通过比较主谓一致正确和错误的句子,可分离出主谓一致现象。最小对可用于测试语言模型对特定语言现象的敏感性。模型通过计算标记对数概率的总和为最小对的每个实例打分。若模型对大量示例中的正确实例始终赋予更高概率,则表明该模型对该现象敏感。一组按语言类别精心策划的最小对被称为诊断数据集。
-
语言模型认知合理性研究
超级会员免费看
订阅专栏 解锁全文
1255

被折叠的 条评论
为什么被折叠?



