预测是一件很容易打脸的事情,但记录自己的预测并检查是否正确是一种有效的学习方式(德鲁克说过类似的话),GPT就是通过不断的预测下一个token获得了这样的超能力,所以要想进步就得预测。
昨晚我在朋友圈说感觉最近对GPT发展的预测还挺准的
那就再来做三个预测吧。以下三个是我觉得OpenAI近期(GPT-4.5之前,三个月之内)会解决的问题。
一、长期记忆
GPT的Transformer架构的计算性能和参数规模及上下文大小强相关,而为了进一步加强模型能力,参数规模还在继续扩大,据说GPT-4的参数量约1万亿,大概是3.5的6倍,这决定了单个任务的上下文大小很难快速增加,从GPT-4的定价远比GPT-3.5贵可以看出这个问题并非那么好解决。但从实用角度,对上下文大小的需求又是接近无限的,你肯定希望能够不断的去训练它的各项能力,就像教育一个孩子长大成人一样。
因此,GPT迫切需要引入一种长期记忆机制。任务的上下文仅仅是working memory,长期记忆机制相当于程序的外存。GPT在执行过程中,可以“聪明”地将一些暂时不需要的上下文存入长期记忆,在需要的时候再把它重新加载进上下文。
实现机制是很成熟的,通过语义做向量embedding即可在需要时找回曾经的记忆,就是现在类似LangChain项目用来做文档库问答的常规套路,但预计GPT很快会内置提供这一机制,而且是以一种用户无感知的方式实现(其实现在的GPT有没有实现这一点也不好讲)。
二、算术增强
算术是GPT最明显的短板。GPT的很多理解和推理过程都很正确,就是一到算术就容易犯傻(一般三位数乘法就算不对了),很有点“阴沟里翻船”的