听吴恩达的话,开源大模型结合Agent将大有可为

最近吴恩达在一次内部分享中提到,“较低参数规模的大模型加上Agent能胜过GPT5”,他呼吁大家去探索Agent,这个结论跟我最近对AI的探索比较契合。

开源大模型的可用性

当下市面上涌现出数百个大规模的模型,其中开源的有几十个。在这些开源可用的模型当中,LLama2-70B和QWen-72B的能力尤为出色。它们的性能或接近,或部分能力甚至已经超过了GPT3.5-Turbo。这意味着,大家有足够多的选择和可能性。
接下来,我们将进行一系列的评测,涉及的模型包括LLama2-70B、通义千问-72B、GPT3.5以及GPT4。这次评测的主要目的并不是验证这些模型的能力,而是通过这些评测,给大家直观地展示开源模型和GPT4之间存在的差距,并且让大家看到这个差距是可以被弥补的。为了排除多语言因素对评测结果的影响,我们选择统一使用英文进行评测。整个评测过程中,我们将对模型进行三道题的测试。

首先,我们来看第一道题,这是一道关于Linux的题目。我们的任务是将一个服务转变成被systemctl托管的服务。

图片

截图从左到右,依次是LLama2-70B、通义千问-72B、GPT3.5、GPT4

从答案中我们可以看出,前三个模型的答案是相似的,都提供了解决问题的步骤。然而,GPT4在答案的结构化详细程度上做得更好一些。尽管如此,我们有理由相信,如果我们使用高度标准化的Promptÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值