本文是LLM系列文章,针对《Peacock: A Family of Arabic Multimodal Large Language Models
and Benchmarks》的翻译。
摘要
多模态大语言模型(MLLMs)已被证明在需要复杂推理和语言理解的广泛任务中是有效的。然而,由于缺乏英语以外语言的高质量多模态资源,MLLM的成功仍然相对局限于以英语为基础的环境。这对开发其他语言的可比模型提出了重大挑战,甚至包括阿拉伯语等母语人口众多的语言。为了缓解这一挑战,我们引入了一个全面的阿拉伯语MLLMs家族,名为Peacock,具有强大的视觉和语言能力。通过全面的定性和定量分析,我们展示了我们的模型在各种视觉推理任务上的扎实表现,并进一步展示了它们新兴的方言潜力。此外,我们还介绍了Henna,这是一个专门为评估阿拉伯文化相关方面的MLLMs而设计的新基准,为具有文化意识的阿拉伯MLLMs奠定了第一块基石。Peacock项目的GitHub存储库位于https://github.com/UBC-NLP/peacock。
1 引言
2 相关工作
3 Peacock
4 数据集和基准
5 实验
6 结论
在这篇工作中,我