背景
从2017年开始,斯坦福大学人工智能研究所(HAI)每年都会发布一份人工智能的研究报告,人工智能指数报告(AII),对上一年人工智能相关的数据进行跟踪、整理、提炼并进行可视化。这份指数报告被认为是关于全球人工智能发展状况最可信、最权威的来源之一。正值人工智能对社会的影响达到前所未有的时刻,前不久他们刚刚发布了第七份报告。今年的报告扩大了研究范围,以便更好地概括技术进步、公众看法等情况。整份报告分为八章,分别总结了人工智能的研发、技术性能、负责任的人工智能、经济、科学与医学、教育、政策与治理、多样性、舆论等方面的情况。我们选取部分编译出来,分四部分刊出,此为第二部分
概述
技术性能这一章将对2023年人工智能的进展进行全面概述。首先从对人工智能技术性能的简要概述开始,跟踪其大概的演进方向。然后再仔细审视各种人工智能能力,包括语言处理、编程、计算机视觉(图像与视频分析)、推理、音频处理、自治智能体、机器人及强化学习等能力在内的现状。本章还重点聚焦过去一年人工智能研究取得的重大突破,讨论了如何通过提示、优化及微调来提升大语言模型的性能,并最终探讨了人工智能系统对环境的影响。
本章摘要
1.人工智能在某些任务(但不是全部)的表现上超过了人类人工智能在若干基准测试中的表现已超越人类,其中包括图像分类、视觉推理及英语理解等; 不过,对于数学竞赛、视觉常识、推理以及规划等更复杂任务,人工智能依然比不过人类。
2.多模态人工智能来了传统人工智能在适用范围上一度存在局限性,比如语言模型擅长文本理解,但图像处理不行,反之亦然。不过,随着最近谷歌的 Gemini 以及 OpenAI 的 GPT-4 等强大的多模态模型的出现,人工智能展现出其灵活性,证明了自己图像、文本乃至音频的处理能力。
3.涌现出难度更高的基准测试ImageNet、SQuAD 与 SuperGLUE等传统的基准测试对人工智能已构不成挑战, 研究者开始推出了更具挑战性的测试,如 2023 年冒出来的 SWE-bench、HEIM、MMMU、MoCa、AgentBench 及 HaluEval, 分别测试的是编码、图像生成、推理、道德判断、智能体行为与幻觉评估。
4.更好的人工智能意味着更好的数据,更好的数据又意味着更好的人工智能像 SegmentAnything 、 Skoltech 这样的新的人工智能模型正被用来生成专门的数据,供执行图像分割与 3D 重建等任务。数据对于人工智能性能的改进至关重要。用人工智能来生成更多数据增强了当前的能力,并为将来的算法改进,尤其是更困难的任务扫清障碍。
5.人类评估开始介入随着生成式模型生成出高质量的文本、图像等,评估方式正逐渐从传统的ImageNet或SQuAD等计算化排名逐渐转向包含有人类评价的系统,如 Chatbot Arena Leaderboard。公众对人工智能的感受正日益成为跟着人工智能进展的重要考虑因素。
6.因为大语言模型,机器人变得更灵活了语言模型与机器人的融合诞生出像 PaLM-E 、 RT-2 这样更灵活的机器人系统。这些模型除了改善机器人的能力以外,还能提出问题,这是机器人朝着能更有效地与现实世界互动迈出的重要一步。
7.对AI 智能体研究变得更专业了。AI 智能体是指能在特定环境下自主运行的系统,这类系统的研发一直是计算机科学家面临的一大挑战。不过,新兴研究表明,这些智能体在自主运行的能力上有了显著提升,现在它们不仅能够精通类似 Minecraft 这样的复杂游戏,还能有效地完成在线购物、研究助理等现实世界的任务。
8.闭源大语言模型远胜开源。在10项选定的基准测试当中,闭源模型均超过了开源模型,性能优势的中位数达到了 24.2%。闭源相对开源的这种性能差异对于人工智能政策之争具有深远意义。
重要模型发布的时间线
2023/3/14,Claude,语言模型,Anthropic,Claude 是 Anthropic 推出的首个公开的语言模型,后者是 OpenAI 主要的竞争者之一。模型的目标是尽可能地做到有帮助作用、诚实、无害。
2023/3/14,GPT-4,语言模型,OpenAI,GPT-4 在上一代 GPT-3 的基础上进行了优化,现已成为目前最强大的几款语言模型之一,其表现甚至超过了人类。
2023/3/23,Stable Diffusion v2,文生图模型,Stability AI,Stability AI 的最新版 Stable Diffusion v2 提高了图片的分辨率和质量,令文生图的转换更精准,更高质量。
2023/4/5,Segment Anything,图像分割,Meta,Meta 的 Segment Anything可以利用零样本泛化技术分离图像中的对象。
2023/7/18,Llama 2,大语言模型,Meta,Meta 旗舰大语言模型的更新版,开源。其小型版(7B 和 13B)尽管规模不大,但性能出色。
2023/8/20,DALL-E 3,文生图模型,OpenAI,OpenAI 文生图模型 DALL-E 的改进版。
2023/8/29,SynthID,数字水印,Google, DeepMind,SynthID 是一个专门给人工智能生成的音乐和图像添加水印的工具,即便图像被修改了,水印仍能检测出来。
2023/9/27,Mistral 7B,大语言模型,Mistral AI,法国 Mistral AI 公司新推出的 Mistral 7B 模型,参数规模达到 70 亿,性能在同类产品领先,超过了 Meta Llama 2 的 13B 版本。
2023/10/27,文心大模型(Ernie) 4.0,大语言模型,百度推出的文心大模型 4.0中国目前性能最强的几款大语言模型之一。
2023/11/6,GPT-4 Turbo,大语言模型,OpenAI,这款升级版的大语言模型有 128K 的上下文窗口,价格还降低了。
2023/11/6,Whisper v3,语音转文本模型,OpenAI,OpenAI 的 Whisper v3 是一个开源的语音转文字模型,因具有更高的准确率和更广泛的语言支持而受到好评。
2023/11/21,Claude 2.1,大语言模型,Anthropic,Claude 2.1有着业界领先的 200K 上下文窗口,能够更好地处理包括长篇文学作品在内的复杂内容。
2023/11/22,Inflection-2,大语言模型,Inflection,Inflection的创办者是原 DeepMind 的 Mustafa Suleyman,Inflection-2是这家初创企业退出的第二款大语言模型 ,这标志着 LLM 领域竞争的加剧。
2023/12/6,Gemini,大语言模型,谷歌,Gemini的出现让GPT-4有了一个强大的竞争对手,其派生之一 Gemini Ultra 在众多评测中的表现超越了 GPT-4。
2023/12/21,Midjourney v6,文生图模型,Midjourney,Midjourney 的这个最新版本有着更直观的操作提示以及更高的图像质量,极大地优化了用户体验。
人工智能性能现状
截止至 2023 年,人工智能在多项任务上的表现已经超过了人类,图 2.1.16 展示了在9项人工智能基准测试(分别测试了9项代表性的任务,比方说图像分类或基础阅读理解)中人工智能系统相对于人类基准所取得的进步。过去几年,人工智能在图像分类( 2015 年)、基础阅读理解(2017 年)、视觉推理(2020 年)、自然语言推理(2021 年)等多个领的表现域已经超越了人类。不过,截止 2023 年,人工智能在某些领域,尤其是那些牵涉到更高级认知的任务,如视觉常识推理与高级数学解题(竞赛问题)等,还没能超过人类。
2.2 语言
自然语言处理 (NLP) 可让计算机理解、解释、生成及改写文本。当前的一些顶尖的模型,如 OpenAI 的 GPT-4 与 Google 的 Gemini,可以生成流畅且有条理的文本,并表现出卓越的语言理解能力 (见图 2.2.1)。现在,这些模型还能处理不同的输入方式