今天刚好看到李沐最近在交大演讲中提到的观点:大模型评估特别难,评估是你最重要的事情,先把评估做好,再去做别的事情。
下面是李沐的原话:
还有就是做评估特别难,模型在实际场景中的应用是一件非常复杂的事情,假如你用一个比较简单的评估,是无法评估模型的好坏。所以过去一年多,大家都在不停的刷新榜单,但实际用起来,就觉得模型不太行,因为评估没有到位,没有真的去把实际场景那么复杂的应用给评估进去。
所以很多时候,评估是你最重要的事情,先把评估做好,再去做别的事情。
我们现在是通过自然语言与模型进行交互,但自然语言有一定的二义性,自然语言很难评价其正确性、逻辑性和风格。通常我们不想让人来评估,因为比较昂贵,但使用模型评估会带来偏差。有一个好的评估可以解决 50% 的问题。因为一旦评估解决了,那你就能够进行优化。第二评估解决了,表示你拥有了一些数据。

抛砖引玉
很多模型都在标榜自己的上下文 Token 有多大,模型有多强。用一般的问题来测试评估确实很难。我突然想到我自己最近遇到的真实例子,非常有参考意义,因此想分享下。
背景介绍
我们的一个项目需要开发Android APP,团队中除了我没人会Android(我也是10年前左右开发过一段时间),但是团队其他成员有 uni-app 和前端的开发经验 。为了快速出DEMO,因此我们先尝试使用 uni-app 来开发,要用到Android原生功能的地方,使用 uni_modules 插件来写。uni_modules 插件使用的是 uni-typescript(uts) 语言,uts 采用了与 typescript 基本一致的语法规范,但为了跨端,uts进行了一些约束和特定平台的增补。
大概二个月的时间内,我们团队把这个DE

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



