GLM大模型的机器翻译能力测试

原创

已于 2024-08-09 08:49:14 修改 · 3k 阅读

·

18

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器翻译 #人工智能 #自然语言处理

于 2024-08-08 22:53:34 首次发布

背景介绍

最近想对GLM-4今年发布的几个大模型 glm-4-0520，glm-4-air以及glm-4-flash简单评测一下它们的机器翻译能力，由于这几个大模型的容量和训练数据都有区别，所以它们的翻译能力也是不同的。我们这里就分别选择一些有趣的，有挑战性的，专业性的数据来分别让glm-4-0520，glm-4-air以及glm-4-flash还有百度翻译分别给出它们的翻译结果。最后我们把每个模型或者翻译软件对应的原始语句以及翻译后的结果送到Cluade-3.5-Sonnet这个SOTA的大模型中，让它分别为每个模型的翻译结果进行打分，每个机器翻译例子都是10分的满分。最后我们汇总上面三方面的数据中各个模型和专业的翻译软件的得分，来把握GLM4的几款模型的机器翻译的能力。

本次体验平台为智谱AI的Mass平台，地址为：https://open.bigmodel.cn/ 注册即可在体验中心免费体验上面提到的几款glm-4系列模型。

本次用到的GLM4系列模型简介&价格对比

本次体验的 glm-4-0520，glm-4-air以及glm-4-flash 都是智谱AI提供的闭源大模型，在体验中心随手选择一个大模型之后我们就可以在价格页面看到所有的大模型定价和简介：

我们要体验的这三款模型分别主打性能最强，最高性价比和极速低价。特别地，对于glm-4-flash 模型来说，100w输入tokens只需要0.1元，惊人的便宜。我们就以这三款对性能和价格各有侧重的模型在机器翻译的任务上进行一次评测。

数据获取规则&&打分规则

我们尽可能的去防止数据泄漏，选择数据时尽量选择有版权的比如影视数据以及很新的一些文本数据，比如来自很新的axriv上的论文，较新的考试试卷等。

我们把每个模型或者翻译软件对应的原始语句以及翻译后的结果送到Cluade-3.5-Sonnet这个SOTA的大模型中，让它分别为每个模型的翻译结果进行打分，每个机器翻译例子都是10分的满分

Prompt

对于所有的模型均直接让它翻译即可，例如下面的例子：

请把“唉，我是少爷的身子，跑堂的命啊。”翻译成英语。
请把“My way or the highway.”翻译成中文。

此外，在打分阶段普遍采用下面的prompt：

但对于困难数据中的古文，我们采用下面的prompt，即对古文的原始意思进行标注，以帮助Cluade-3.5-Sonnet更准确的打分。

此外，每做完一次大的翻译课题里面的一个子问题，对Cluade-3.5-Sonnet的对话缓存进行清理。

有趣的翻译数据

这里选取3句《武林外传》的经典台词由中文翻译成英文。选择3句《老友记》的经典台词翻译成英文。再选择3句《哆啦A梦》的日文经典台词，要求翻译为中文。

3句《武林外传》的经典台词

选取如下3句：

唉，我是少爷的身子，跑堂的命啊。

帮我照顾好我7舅姥爷！

确定一定以及肯定。

3句《老友记》的经典台词

My

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。