本文是LLM系列文章,针对《Can Large Language Models Code Like a Linguist?: A Case Study in Low Resource Sound Law Induction》的翻译。
摘要
历史语言学家长期以来编写了一种不完全形式化的“程序”,它将祖先语言中的重构单词转换为其经过证实的后代语言中的单词,其中包含一系列有序的字符串重写函数(称为声音规则)。他们通过观察重建语言(原型)和派生语言(反射)中的单词对并构建一个将原型转换为反射的程序来做到这一点。然而,编写这些程序很容易出错并且耗时。之前的工作已经成功地在计算上支撑了这个过程,但是很少有研究人员解决声音定律归纳(SLI)问题,我们在本文中通过将其称为“示例编程”来实现这一点。我们提出了一种与语言无关的解决方案,通过从声音变化示例生成 Python 声音定律程序,利用大型语言模型 (LLM) 的编程能力。我们评估了我们的方法对各种LLM的有效性,提出了有效的方法来生成额外的与语言无关的合成数据,以微调LLM的 SLI 并将我们的方法与现有的自动化 SLI 方法进行比较,表明虽然LLM落后于它们,但它们可以弥补它们的一些弱点。
1 引言
2 相关工作
3 方法
4 实验
5 结果
6 讨论
7 结论和未来工作
我们提出了一种新颖的声音法则归纳公式,即示例编程(PBE),并利用LLM的编程能力,提出了一种在资源匮乏的情况下进行声音法则归纳的有效样本解决方案。我们观察到,大多数开源LLM在这项任务上表现不佳,但可以通过对与合成语言无关
利用LLM实现低资源声音定律归纳
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



