本文是LLM系列文章,针对《Can Large Language Models Code Like a Linguist?: A Case Study in Low Resource Sound Law Induction》的翻译。
摘要
历史语言学家长期以来编写了一种不完全形式化的“程序”,它将祖先语言中的重构单词转换为其经过证实的后代语言中的单词,其中包含一系列有序的字符串重写函数(称为声音规则)。他们通过观察重建语言(原型)和派生语言(反射)中的单词对并构建一个将原型转换为反射的程序来做到这一点。然而,编写这些程序很容易出错并且耗时。之前的工作已经成功地在计算上支撑了这个过程,但是很少有研究人员解决声音定律归纳(SLI)问题,我们在本文中通过将其称为“示例编程”来实现这一点。我们提出了一种与语言无关的解决方案,通过从声音变化示例生成 Python 声音定律程序,利用大型语言模型 (LLM) 的编程能力。我们评估了我们的方法对各种LLM的有效性,提出了有效的方法来生成额外的与语言无关的合成数据,以微调LLM的 SLI 并将我们的方法与现有的自动化 SLI 方法进行比较,表明虽然LLM落后于它们,但它们可以弥补它们的一些弱点。