看完这篇大模型综述后,我惊叹于大模型的突出性能,这里简单列几个:
1.通过扩展模型尺寸,few-shot 设置下的大语言模型甚至可以在 65% 的 BIG-bench任务中超过平均人类表现 [56]。(BIG-bench是一个由社区协作收集的评测基准,旨在从各个方面探究现有大语言模型的能力。它包含了 204 个任务,主题包括语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等等。)
2.大语言模型能够处理各种医疗保健任务,例如生物信息提取 [396]、医疗咨询 [397–399] 和报告简化 [400],甚至可以通过为专业医生设计的医疗执照考试 [401–403]。
3.研究表明:在某些计算机安全领域的课程上,利用ChatGPT的学生表现比使用其他方法的学生平均表现更好
4.最近的一项研究 [412] 发现,大语言模型具有强大的法律解释和推理能力。此外,最新的 GPT-4 模型在模拟律师考试中取得了相当于人类考生前 10% 的成绩。
5.一些工作研究了 LLMs 的类人特征,如自我意识、心理理论(Theory of Mind, ToM)和情感计算等方面的特征 [40, 416–418]。特别地,针对两个经典的虚假信念任务进行的 ToM 的实验表明, GPT-3.5 系列模型在 ToM 任务中的表现与 9 岁儿童相当
现在的大模型就很像当年的软开,性能强大,扩展性强、应用面广,市场前景广阔。看完这篇综述,我已经迫不及待的准备allin大模型了。
下面是我整理的综述的思维导图:

大模型:性能与应用
4032

被折叠的 条评论
为什么被折叠?



