3分钟速览OpenAI春季发布会：GPT-4o炸裂登场！

北京时间周二（5月14日）凌晨，美国人工智能研究公司OpenAI在线上举办了“春季更新”活动。

整体来看，活动主要分为两大部分：推出新旗舰模型“GPT-4o”，以及在ChatGPT中免费提供更多功能。

OpenAI在活动中发布了新旗舰模型“GPT-4o”，“可以实时对音频、视觉和文本进行推理。”据介绍，新模型使ChatGPT能够处理50种不同的语言，同时提高了速度和质量。

GPT-4o的“o”代表“omni”。该词意为“全能”，源自拉丁语“omnis”。在英语中“omni”常被用作词根，用来表示“全部”或“所有”的概念。

新闻稿称，GPT-4o是迈向更自然人机交互的一步，它可以接受文本、音频和图像三者组合作为输入，并生成文本、音频和图像的任意组合输出，“与现有模型相比，GPT-4o在图像和音频理解方面尤其出色。”

在GPT-4o之前，用户使用语音模式与ChatGPT对话时，GPT-3.5的平均延迟为2.8秒，GPT-4为5.4秒，音频在输入时还会由于处理方式丢失大量信息，让GPT-4无法直接观察音调、说话的人和背景噪音，也无法输出笑声、歌唱声和表达情感。

与之相比，GPT-4o可以在232毫秒内对音频输入做出反应，与人类在对话中的反应时间相近。在录播视频中，两位高管做出了演示：机器人能够从急促的喘气声中理解“紧张”的含义，并且指导他进行深呼吸，还可以根据用户要求变换语调。

图像输入方面，演示视频显示，OpenAI高管启动摄像头要求实时完成一个一元方程题，ChatGPT轻松完成了任务；另外，高管还展示了ChatGPT桌面版对代码和电脑桌面（一张气温图表）进行实时解读的能力。

OpenAI新闻稿称，“我们跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。由于GPT-4o是我们第一个结合所有这些模式的模型，因此我们仍然只是浅尝辄止地探索该模型的功能及其局限性。”

性能方面，根据传统基准测试，GPT-4o在文本、推理和编码等方面实现了与GPT-4 Turbo级别相当的性能，同时在多语言、音频和视觉功能方面的表现分数也创下了新高。

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。