LLM漫谈(八)| OpenAI 12天直播集锦

声明:本文是收集了网上关于OpenAI 12天直播的博文,若有侵权,联系我删除,感谢各位博主的奉献。

       此次 OpenAI 将发布会拆分为 12 天直播,是一次内容与形式的双重创新。这种形式通过延长发布周期,不断吸引观众注意力,并以分阶段展示的方式,让每个产品功能都能得到更深度的解读和关注。同时,用户在不同时间段都能灵活参与,增强了直播的互动性与全球覆盖度。

下面我们对12天直播的关键信息进行梳理汇总:

一、Day1:

OpenAI 首先推出了两款重磅产品:ChatGPT Pro 和 O1 正式版。

1.1 ChatGPT Pro:专业能力的全新升级

      ChatGPT Pro 是针对个人和企业用户推出的增强版 AI 助手。相比免费版,Pro 版本在功能和性能上都有了质的飞跃。价格为每月 200 美元(贵的离谱🤦‍♂️) 。

更强大的处理能力:

      Pro 版可以轻松应对复杂任务,如多语言实时翻译、复杂数据分析等,为用户提供专业级的支持。

无缝的多端体验:

     支持跨设备的高效连接,无论是 PC、手机还是 IoT 设备,都能随时随地使用。

更快的响应速度:

     Pro 用户可优先使用计算资源,享受低延迟、高效率的交互体验,尤其适合对生产力要求较高的场景。

个性化定制功能:

     用户可以根据需求自定义 AI 模型,打造符合自身业务特点的解决方案。

     这些优势不仅提升了用户效率,更适合多场景的复杂应用,如企业决策、团队协作等。

1.2 O1正式版:重新定义人机交互的边界

     除了 ChatGPT Pro,OpenAI 还发布了 O1 正式版,这款产品主打人机交互的深度优化。

语音与视觉的完美结合:

      O1 实现了语音和视觉交互的深度融合,支持用户通过语音指令或手势完成多种任务。例如,在智能家居中,用户可以用手势切换设备模式,在办公环境中则能通过语音实现会议纪要的实时生成。这种灵活性为不同场景的便捷应用提供了更多可能性。

支持复杂场景的 AI 应用:

     从智能家居到企业级办公场景,O1 可以根据环境和用户需求提供高度智能化的服务。

模块化升级设计:

     用户可以根据需求自由扩展 O1 的功能模块,适应从个人到企业的多种使用场景。

     如家庭助手的场景切换、办公中的会议纪要自动生成,O1 显示了其灵活性和实用性。

图片

     o1预览版(o1-preview)、o1以及o1专业模式(o1 pro mode),在数学、科学和编码等机器学习基准测试中的表现对比

图片

     o1预览版(o1-preview)、o1以及o1专业模式(o1 pro mode),在更严格评估中的表现对比

二、Day2:

       OpenAI 研究高级副总裁 Mark Chen 联手伯克利实验室环境基因组学与系统生物学的计算研究员 Justin Reese,以及 OpenAI 团队的多位核心成员,共同为我们带来关于强化微调(Reinforcement Fine-Tuning) 的深入演示和讨论。OpenAI 高管介绍 RFT,强调其将大型语言模型从“高中水平”提升至“博士级专家”的能力,适合高校、研究人员和企业打造独特的 AI 解决方案,将于2025年发布!

概要总结

  • RFT 的能力:RFT 使用户能够利用 OpenAI 强大的强化学习算法,创建针对特定任务和领域的专家级 AI 模型。

  • 数据需求低:RFT 只需少量数据(仅需几十个示例)即可实现显著的性能提升。

  • 超越标准微调:RF 在特定任务中的表现优于标准微调,甚至超过了 Zero-One 基础模型。

  • 核心流程:RFT 需要提供训练数据集、验证数据集,以及一个“评分器”用来将模型输出与正确答案进行比对。

  • 评分器支持:OpenAI 提供预建评分器,并计划未来支持用户定义自定义评分器。

  • 案例展示:在罕见病诊断应用中,使用 RF 微调的 Zero-One Mini 模型在根据患者症状预测正确致病基因的准确率上达到了 31%,优于基础 Zero-One 模型(25%)和未微调的 Zero-One Mini(17%)。

  • 多领域潜力:RFT 在多个领域表现出潜力,包括生物化学、AI 安全、法律和医疗保健。

  • 研究项目邀请:OpenAI 邀请研究人员和组织申请 RF 研究计划,以探索 RF 在各自领域的潜力

2.1 OpenAI推出强化微调RFT

       OpenAI 推出了一项新的模型定制计划——强化微调(Reinforcement Fine-Tuning),利用强化学习的强大能力,为特定任务打造专家级的AI模型。该计划旨在赋能开发者、研究人员和机器学习工程师,特别是在法律、金融、工程和保险等领域,通过他们自己的数据创建独特的AI解决方案。

2.2 理解强化微调RFT

图片

01 什么是微调(Fine-Tuning)?

       强化微调是将一个预好的通用模型,通过在特定领域的小规模数据集上进一步训练,使其适应特定任务的技术。简单来说就是在一个“学过很多东西”的大模型上,再让它针对某个具体任务“重点练习”,让它更适合做这件事。

那有什么作用呢?

  1. 让模型更聪明地解决特定问题,比如帮你分析法律文件或者推荐你喜欢的电影。

  2. 省时省力,不用从头训练模型,只需要对现有模型稍加调整。

  3. 让模型更懂领域知识,比如让它更懂医学术语或专业技术词汇。

02 强化微调RFT是什么?

强化微调不同于监督微调,其目标是让模型学会推理和解决问题,而不仅仅是复制模式。

  • 该过程通过为模型提供一个问题,允许其思考解决方案,对最终答案进行评分,并使用强化学习鼓励成功的推理路径。

  • 这种技术类似于训练 GPT-4 和其他前沿模型的方式,仅需少量的例子(几十个)即可有效学习。

科学研究中的应用:罕见遗传病的案例研究

       伯克利实验室研究员 Justin Reese 讨论了强化微调在理解和治疗罕见遗传病中的潜力,这类疾病影响了全球大量人口。

  • 研究重点是开发将医学专家知识与系统性生物医学数据推理结合的计算工具,使用“Zero-one”模型实现这一目标。

  • Reese 解释了如何通过从科学出版物中提取疾病信息,创建包含症状、缺失症状和致病基因的数据集,以根据患者症状预测变异基因。

03 使用 RFT 相比传统微调方法有哪些关键优势?

  • 提升推理能力:RFT 专注于增强模型的推理和解决问题的能力,使其能够在需要深入专业知识的复杂任务中表现出色。

  • 高效的数据需求:RFT 即使在数据量有限的情况下(有时仅需几十个样本)也能实现显著性能提升,而标准微调通常需要大量数据集。

  • 泛化能力:RFT 训练模型将学习成果推广到新的、未见过的数据中,避免仅仅记忆训练数据中的模式,从而使模型在实际场景中更加稳健和适应性强。

04 什么是“评分器(Graders)”,它们在 RFT 中的作用是什么?

       “评分器”是 RFT 过程中的关键组件,它们作为评估函数,通过将模型输出与已知正确答案进行对比来评估输出质量。

  • 评分器分配的分数范围从 0 到 1,其中 0 表示完全错误的答案,1 表示完美的答案。

  • 这些分数为强化学习算法提供反馈,指导模型改进推理并生成更好的响应。

  • OpenAI 提供了一系列用于常见任务的预建评分器,并计划未来允许用户定义自定义评分器。

05 RFT对数据的要求是什么?这些数据是如何构建的?

        RF 需要以 JSONL 格式提供训练和验证数据集。文件中的每一行表示一个示例,包含以下内容:

  • 病例报告:需要模型分析的场景描述,例如医学案例中的患者症状。

  • 指令:明确解释任务的提示,包括所需的输出格式。

  • 正确答案:已知的真实答案,用于评估模型的输出。在训练过程中不会向模型透露正确答案,但评分器会使用它。

验证数据集使用相同格式,但包含与训练集不重叠的不同示例,以确保模型的泛化能力。

06 RFT应用的真实案例

       一个典型的案例是罕见遗传病研究。OpenAI 与伯克利实验室和德国 Charité 医院的研究人员合作,使用 RFT 训练 Zero-One Mini 模型。

  • 该模型基于一个包含病例报告、患者症状和致病基因的数据集进行训练。

  • 通过 RFT,该模型学会了有效推理罕见疾病的成因,并在性能上超越了更大的 Zero-One 模型,展示了其在诊断和理解复杂病情方面的潜力。

07 RFT的未来发展方向及其潜在影响是什么?

  • 扩大访问范围:向研究人员和开发者广泛开放 RFT,将释放其潜在的应用范围。

  • 自定义评分器:允许用户定义自己的评分器,将进一步提高 RFT 在各种任务中的灵活性和适用性。

  • 与其他工具整合:将 RFT与其他 AI 技术和平台结合,创造更强大、通用的 AI 解决方案。

       RFT 的持续发展与更广泛的采用,有望显著提升多个领域的 AI 能力,推动科学研究、医疗保健等行业的突破性进展。

强化微调的潜力不仅限于科学研究,还在多个领域表现出前景。

  • OpenAI 正在扩展其 alpha 计划,为更多研究人员和开发者提供访问权限。

  • 该计划鼓励处理复杂任务且需要专家级AI辅助的组织参与,旨在探索技术的全面潜能。

2.3 强化微调的实际操作:演示

在 OpenAI 开发平台上提供了强化微调过程的分步演示,包括:

  1. 数据准备:上传 JSONLines 格式的训练和验证数据集,其中包含病例报告、症状、模型指令和正确答案。

  2. 评分器实现:定义一个评分器,根据正确答案对模型输出进行评估,评分范围为 0 到 1,并提供多种任务意图的评分器。

  3. 训练与评估:启动训练任务,利用 OpenAI 的基础设施和算法。微调模型显示验证奖励分数逐步上升,表明在任务上的泛化能力。

  4. 与基线模型比较:评估仪表盘结果展示了微调后的 Zero-one Mini 模型与基础 Zero-one Mini 和更大 Zero-one 模型的性能对比。微调模型在“Top at One”准确率上表现出显著提升。

图片

三、Day3:

       OpenAI 12天发布会 Day3 ,Sora正式上线了,深夜炸场,这次终于不再鸽了

       Sam Altman 认为sora目前还处于早期阶段——可以将其视为“视频领域的 GPT-1”——但他已经觉得它的内容流非常吸引人了,虽然目前的版本并不完美,但我们期待用户创造出令人惊叹的作品。”

图片

我给大家划划重点,分享一些Day3的细节

创意与推动AGI

Sora 是 OpenAI 为视频创作从零打造的产品,其核心目标包括:

  1. 赋能创意:Sam Altman 表示,OpenAI 一直致力于为创意人士开发工具,而 Sora 的推出标志着 AI 在人类共创领域迈出了一大步

  2. 超越文本限制:视频作为一种重要的交互媒介,可以让 AI 系统更深入地理解世界并呈现动态内容。通过 Sora,OpenAI 希望改变计算机与人类互动的方式

  3. 推动 AGI 发展:视频生成和理解是通用人工智能(AGI)蓝图的重要组成部分,Sora 提供了 AI 学习和应用复杂场景的全新环境

Sora正式版功能亮点

Sora全新UI长这样

图片

Sora 提供了一系列功能丰富的创作工具,包括但不限于:

文本生成视频:用户只需输入简单的文本描述,即可生成动态视频,例如韩国小姐姐吃面,Sora 能生成一段符合描述的短视频

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wshzd

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值