导读序 奇事·奇人·奇书
奇事
2019年微软投资OpenAI的决策中盖茨投了反对票
阿里巴巴CEO张勇的看法是:所有行业、应用、软件、服务,都值得基于大模型能力重做一遍。
AGI(artificial general intelligence,通用人工智能)
共同推动深度学习从边缘到舞台中央而获得图灵奖的三位科学家的意见:
杨立昆(Yann LeCun)明确表示GPT代表的自回归大模型存在本质缺陷,需要围绕世界模型另寻新路,所以他对AI的威胁并不担心;
约书亚·本吉奥(Yoshua Bengio)虽然也不认同单靠GPT路线就能通向AGI(他看好将贝叶斯推理与神经网络结合),但承认大模型存在巨大潜力,从第一性原理来看也没有明显的天花板,因此他在呼吁暂停AI开发的公开信上签了字;
杰弗里·辛顿(Geoffrey Hinton)同意自己的弟子伊尔亚·苏茨克维(Ilya Sutskever)提出的“大模型能学到真实世界的压缩表示”的观点。
反向传播机制(通俗地说就是内置“知错能改”机制)。
人工神经网络的逆袭之旅
1943年,沃尔特·皮茨(Walter Pitts)在与沃伦·麦卡洛克(WarrenMcCulloch)共同提出神经网络的数学表示时才20岁。
1958年,30岁的弗兰克·罗森布拉特(Frank Rosenblatt)通过感知机实际实现了神经网络。
反向传播的主要提出者大卫·鲁梅尔哈特(David Rumelhart)。
一些顶级会议以及明斯基这样的学术巨人排斥神经网络,逼得辛顿等人不得不先后采用“关联记忆”“并行分布式处理”“卷积网络”“深度学习”等中性或者晦涩的术语。
2012年,辛顿的博士生伊尔亚·苏茨克维等在ImageNet比赛中用新方法一飞冲天,深度学习才开始成为AI的显学,并广泛应用于各个产业。2020年,他又在OpenAI带队,通过千亿参数的GPT-3开启了大模型时代。
2015年,30岁的山姆·阿尔特曼和28岁的格雷格·布罗克曼(Greg Brockman)与马斯克联手,召集了30岁的苏茨克维等多位AI顶级人才,创立OpenAI。
2014年,富兰克林·欧林工程学院本科毕业两年的亚历克·拉德福德(Alec Radford)加入OpenAI。
2017年开创了“预测下一个字符”的极简架构结合大模型、大算力、大数据的技术路线,对后续的GPT产生了关键影响。
GPT-1的论文发表之后,并没有得到太多关注,风头被谷歌几个月之后发布的BERT抢去了。
2019年2月发布的GPT-2将最大参数规模提升到15亿级别,模型开始展现很强的通用能力。
OpenAI出于安全考虑,一开始只开源了最小的3.45亿参数模型,OpenAI不“Open”。
2020年,GPT-3横空出世。
2021年之后,GPT路线已经完全占据上风,而BERT的进化树几乎停止了。
2020年底,OpenAI的两位副总达里奥·阿莫迪(Dario Amodei)和丹妮拉·阿莫迪(Daniela Amodei)(同时也是兄妹
带领GPT-3和安全团队的多位同事离开,创办了Anthropic,推出智能聊天产品Claude。
2022年6月,论文“Emergent Abilities of Large Language Models”发布,研究了大模型的涌现能力,这类能力在小模型中不存在,只有模型规模扩大到一定量级才会出现——也就是我们熟悉的“量变会导致质变”。
当年11月中旬,两周后,ChatGPT诞生。
OpenAI管理层应该是得知了Anthropic Claude的进展,意识到这一产品的巨大潜力,决定先下手为强。
2023年3月,GPT-4发布。
在综合能力上,OpenAI仍然一骑绝尘,唯一可以与之抗衡的,是Anthropic。
奇人
斯蒂芬·沃尔弗拉姆(Stephen Wolfram),被称为“在世的最聪明的人“。
谢尔盖·布林曾经慕名到沃尔弗拉姆的公司实习,王小川更是他有名的铁杆粉丝。
13岁就自己写了几本物理书,其中之一名为《亚原子粒子物理》。
15岁在 Australian Journal of Physics 上发表了一篇高能物理论文“Hadronic Electrons?”,提出了一种新形式的高能电子–强子耦合。
20岁的他在美国加州理工学院直接拿了博士学位,导师是费曼。随后他留校,成为加州理工学院的教授。
1981年沃尔弗拉姆荣获第一届麦克阿瑟奖(俗称“天才奖”),是最年轻的获奖者。
1983年成为复杂系统这一学科的开创者之一。
菲利普·安德森在1972年发表的文章“More is Different”中提出了emergency,即涌现这一概念。
1991年,1000多页的巨著《一种新科学》(A New Kind ofScience)。
主要观点是:万事皆计算,宇宙中的各种复杂现象,不论是人产生的还是自然中自发的,都可以用一些规则简单地计算和模拟
这些现象或者系统,比如人类大脑的工作和气象系统的演化,在计算方面是等效的,具有相同的复杂度,这称为“计算等价原理”。
奇书
要理解大模型,正确建立一些核心概念是非常关键的。
<