Evaluating the Elementary Multilingual Capabilities of Large Language Models with MULTIQ

UnknownBody

于 2024-07-04 09:35:42 发布

阅读量160

点赞数 3

CC 4.0 BY-SA版权

分类专栏： LLM Daily LLM Evaluation 文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/140169888

LLM Daily 同时被 2 个专栏收录

1394 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

87 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文是LLM系列文章，针对《Evaluating the Elementary Multilingual Capabilities of Large Language Models with MULTIQ》的翻译。

用MULTIQ评估大型语言模型的基本多语能力

摘要
1 引言
2 MULTIQ数据集
3 实验和结果
4 多语言的驱动因素
5 相关工作
6 结论
局限性

摘要

大型语言模型（LLM）需要为每个人服务，包括全球大多数非英语使用者。然而，今天的大多数LLM，尤其是开放式LLM，通常只用于英语（例如Llama2、Mistral）或少数高资源语言（例如Mixtral、Qwen）。最近的研究表明，尽管LLM的预期用途有限，但人们还是用许多不同的语言提示LLM。因此，在本文中，我们研究了最先进的多语言能力打开超出预期用途的LLM。为此，我们引入了MULTIQ，这是一个新的银标准基准，用于基本的开放式问题回答，在137种语言的类型多样的集合中有27.4k道测试题。使用MULTIQ，我们评估语言保真度，即模型是否以提示的语言进行响应，以及问答的准确性。我们测试的所有LLM至少对某些超出预期用途的语言做出了忠实和/或准确的响应。大多数模型在忠实响应时会更准确。然而，模型之间的差异很大，而且存在着模型既不准确也不忠实的语言长尾。我们探索了标记化的差异，作为对我们发现的潜在解释，确定了值得进一步调查的可能相关性。

1 引言

2 MULTIQ数据集

3 实验和结果

4 多语言的驱动因素

5 相关工作

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。