多模态GPT-4的发布可能是一个重磅消息。**但是它更可能和以前的GPT模型一样是纯文本模型,它在语言任务上的表现将重新定义SOTA。**具体来说GPT-4会是什么样的呢?那就是它在记忆(保留和参考前期对话信息的能力)和摘要(提取和精简大规模文本的能力)这两个语言领域的性能会有跨越式提升。
**2.**训练大型语言模型将逐渐开始耗尽数据
数据是新时代的石油这种说法早就已经是陈词滥调了,但这样说还不足以表明数据的重要性:因为石油和数据都是有限的,都有消耗殆尽的一天,在AI领域,语言模型对数据的需求量最大,数据耗尽的压力也更大。
正如前面提到的,DeepMind的Chinchilla work等研究已经表明,构建大型语言模型(LLM)最有效的方式不是把它们做得更大,而是在更多的数据上对其进行训练。
但是世界上有多少语言数据呢?更准确地说有多少语言数据达到了可以用来训练语言模型的要求呢?实际上,现在网络上大多数的文本数据并没有达到要求,不能用来训练大型语言模型。
对于这个问题,我们很难给出确切的答案,但是根据一个研究小组(https://arxiv.org/pdf/2211.04325.pdf)给出的数据,全球高质量文本数据的总存量在4.6万亿到17.2万亿个token之间。这包括了世界上所有的书籍、科学论文、新闻文章、维基百科、公开代码以及网络上经过筛选的达标数据,例如网页、博客和社交媒体。最近的另一项研究数据(https://www.lesswrong.com/posts/6Fpvch8RR29qLEWNH/chinchilla-s-wild-implications)显示,数据总数大约为3.2万亿个token。
DeepMind的Chinchilla模型是在1.4万亿个token上训练的。也就是说,在这个数量级内,我们很有可能耗尽世界上所有有用的语言训练数据。这可能成为人工智能语言模型领域持续进步的一大障碍。许多前沿AI研究人员和企业家私下里都对此忧心忡忡。
随着研究人员开始寻求解决数据短缺这一迫在眉睫的问题,预计2023年对这方面的关注度会增加。针对这一问题,合成数据是一种可能的解决方案,尽管该如何操作这一方法还未可知。还有另一种可能的方法,那就是系统性地转录会议上的讲话,毕竟口头交流代表着还有大量未捕获的文本数据。
作为世界领先的LLM研究机构,人们十分好奇OpenAI在其即将发布的GPT-4研究中会如何应对这一挑战,同时,大家也期待着可以获得一些启发。
**3.**一些消费者开始将完全自动驾驶作为日常出行模式
在多年预热炒作却一再失信之后,最近自动驾驶汽车领域出现了一些少有人注意的新变化:真正的无人驾驶汽车时代已经悄悄来临。
现在在旧金山,你可以下载Cruise应用程序(这个程序和Uber或Lyft的APP差不多),通过这个APP你可以叫到真正的没有司机辅助的无人驾驶汽车带你在街道上穿行。
目前,这些无人驾驶汽车仅在夜间服务,服务时间是晚上22:00点到早上5:30,但是Cruise已经准备好了要在旧金山提供全天候