OpenAI-o1发布,断崖式碾压GPT-4o,AI能力迈上新台阶

阅读原文

As Sutton said in the Bitter Lesson, there’re only 2 techniques that scale indefinitely with compute: learning & search. It’s time to shift focus to the latter.
正如萨顿在《痛苦的教训》中所说,只有两种技术可以随着计算无限扩展:学习和搜索。是时候将焦点转移到后者了。

HightLight

  1. OpenAI o1最大的技术特征是什么:RL训练和推理,在传统COT之外隐藏了一个很长的内在COT,满足scaling law。 long internal chain of thought,LLM从 system1 -> system2
  2. OpenAI o1 的性能表现:理工科方面 (智力) 断崖碾压GPT4-o,达到人类竞赛选手,以及博士生水平,文科方面和o1比没有优势。

技术原理

  1. 在训练阶段,会通过强化学习,让o1完善其思维链并优化所使用的策略。例如:识别并纠正错误,将复杂步骤拆分为简单步骤,当前方法不work时,换一种方法。
  2. 在推理阶段,模型同样会在呈现给用户的cot之外,做一个更深的的所谓的long internal chain of thought,所以推理时间会更长,相当于COT套娃了,给COT再加一个COT(猜测是把MCTS搜索过程序列化了)。

o11

满足 Scaling Law,在训练和测试时的时间都能和性能形成对数线性关系。

Reasoning 在o1模型中的工作原理

o12

o13

关于 inference scaling law, two recently papers:

  1. Large Language Monkeys: Scaling Inference Compute with Repeated Sampling. Brown et al. finds that DeepSeek-Coder increases from 15.9% with one sample to 56% with 250 samples on SWE-Bench, beating Sonnet-3.5.
    布朗等人。发现 DeepSeek-Coder 在 SWE-Bench 上从 1 个样本的 15.9% 提高到 250 个样本的 56%,击败了 Sonnet-3.5。

  2. Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters. Snell et al. finds that PaLM 2-S beats a 14x larger model on MATH with test-time search.
    斯内尔等人。发现 PaLM 2-S 通过测试时搜索在数学上击败了 14 倍大的模型

o14

性能表现

  1. 在全美高中生数学竞赛AIME上,o1能达到74分(GPT4-o仅有12分),如果采样1000次,结合reward model加权投票能到93分,能排进全国前500名,超过USA Mathematical Olympiad的晋级分数线;
  2. 在GPQA,一个关于物理,化学和生物的智力测试上,OpenAI招募了一群相关领域有博士学位的专家和o1同台竞技, o1能够在GPQA-diamond questions.上超过这群专家。

o15

  1. OpenAI在o1的基础上加强了模型的代码能力,以o1为初始化又训了一个o1-IOI,获得216分的分数,在放开提交次数后,o1-IOI能获得362.14,超过了金牌线。和人类顶尖选手同台竞技,在CodeForce上,打出了惊人的1807分。

o16

Limitation

当前版本暂不支持system messages,只支持user和assistant。不过相信后面的更新会支持。

o110

适合对象

如果你正在解决科学、编码、数学和类似领域的复杂问题,这些增强的推理能力可能特别有用。例如,医疗研究人员可以使用 o1 来注释细胞测序数据,物理学家可以使用 o1 来生成量子光学所需的复杂数学公式,各领域的开发人员可以使用 o1 来构建和执行多步骤工作流程。

测试Case

o17

o18

o19

阅读原文

Reference

[1]. https://openai.com/index/introducing-openai-o1-preview/

[2]. https://openai.com/index/learning-to-reason-with-llms/

[3]. https://cookbook.openai.com/examples/o1/using_reasoning_for_data_validation

[4]. https://cookbook.openai.com/examples/o1/using_reasoning_for_routine_generation

[5]. https://platform.openai.com/docs/guides/reasoning

### 比较OpenAI GPT-4GPT-4o模型 #### 特征差异 GPT-4代表了OpenAI在大型语言模型技术上的最新进展,具有更高的参数量和改进的架构设计,旨在提供更为流畅自然的语言理解和生成能力。相比之下,关于GPT-4o的信息较少,通常认为这是针对特定优化版本或是内部使用的变体之一[^1]。 #### 性能对比 具体到性能方面,在公开资料中并没有直接提及GPT-4o的具体评测数据。然而,基于一般模,可以推测GPT-4o可能是在原有基础上做了针对性调整或优化,比如提升了某些应用场景下的效率或者降低了资源消耗等特性。而标准版GPT-4则经过大规模预训练并广泛应用于多种任务场景,其泛化能力和适应范围更加广阔。 #### 应用领域 由于缺乏详细的官方说明文档来描述两者之间的区别,对于想要深入了解两者的不同之处以及各自适用场景的人来说存在一定难度。但从逻辑推断来看,如果存在所谓的"GPT-4o"版本,则很可能是为了满足特殊需求而定制开发出来的分支版本;它或许会在特定行业应用中有更好的表现,或者是专门为某类计算环境进行了适配性改造。 ```python # 这里仅展示如何通过Python代码加载两个假设存在的模型进行简单推理演示, # 实际操作需依据实际可用API接口编写相应程序。 import transformers as trf model_name_4 = "openai/gpt-4" tokenizer_4 = trf.AutoTokenizer.from_pretrained(model_name_4) model_4 = trf.AutoModelForCausalLM.from_pretrained(model_name_4) # 假设GPT-4o也存在于Hugging Face Model Hub中 model_name_4o = "openai/gpt-4o" tokenizer_4o = trf.AutoTokenizer.from_pretrained(model_name_4o) model_4o = trf.AutoModelForCausalLM.from_pretrained(model_name_4o) text_input = ["Tell me about the weather today."] input_ids_4 = tokenizer_4(text_input, return_tensors="pt").input_ids output_4 = model_4.generate(input_ids_4) input_ids_4o = tokenizer_4o(text_input, return_tensors="pt").input_ids output_4o = model_4o.generate(input_ids_4o) print(f'Output from GPT-4:\n{tokenizer_4.decode(output_4[0], skip_special_tokens=True)}') print(f'\nOutput from GPT-4o:\n{tokenizer_4o.decode(output_4o[0], skip_special_tokens=True)}') ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值