Llama-2 与 Llama-3:模型之间的井字游戏之战 使用 Python 和 Llama-CPP 制定非科学基准

本文通过在Llama-2和Llama-3模型间进行井字游戏,展示了LLaMA-3在游戏中的优势。作者使用Llama-cpp库在Python中实现游戏,发现尽管两者在学术基准上表现差距明显,但在实际游戏中,LLaMA-3以10:0或8:2的比分战胜了LLaMA-2。此外,文章讨论了模型的推理时间和资源需求,表明LLaMA-3在速度上较慢,但对内存需求更高效。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大约在撰写本文的前一周,Meta发布了新的开放式 Llama-3 模型。正如 Meta 所声称的那样,这些是“当今 8B 和 70B 参数尺度上现有的最佳模型”。例如,根据HuggingFace 模型页面,在 MMLU(大规模多任务语言理解)基准测试中,Llama-3 8B 得分为 66.6,而 Llama-2 7B 得分为 45.7。 Llama-3 在 CommonSense QA(常识问答数据集)中也获得了 72.6 比 57.6 的分数。经过指令调整的 Llama-3 8B 模型获得了 30.0 分,而数学基准测试的得分为 3.8,这确实是一个令人印象深刻的进步。

学术基准很重要,但我们能看到“行动中”的真正差异吗?显然,我们可以,而且很有趣。让我们在两个模型之间编写一个井字游戏,看看哪一个获胜!比赛过程中我会测试所有7B、8B、70B的型号。同时,我还将收集一些有关模型性能和系统要求的数据。所有测试都可以在 Google Colab 中免费运行。

让我们开始吧!

加载模型

为了测试所有模型,我将使用Llama-cpp Python 库,因为它可以在 CPU 和 GPU 上运行。我们需要并行运行两个法学硕士。 7B和8B模型都可以轻松地在免费的16GB Google Colab GPU实例上运行,但70B模型只能使用CPU进行测试;即

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

知识大胖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值