划重点:OpenAI o1/o3的正确打开方式

苹果&SpaceX前工程师Ben Hylak订阅 200 美元/月的o1 pro 后,经过一天的认真尝试,发现它很差劲:

 1、每次我问一个问题,都要等 5 分钟;2、结果看到的只是一大堆自相矛盾的官样文章;3、还有未经请求的架构图 + 优缺点列表。

图片

是o1真的不行吗?还是使用方式不对?重点来了,OpenAI CEO 山姆奥特曼转发:

o1 不是聊天模型(o1 isn’t a chat model

它更像一个“报告生成器”。如果你给它足够的背景信息,并告诉它你想要输出什么,它通常会一次性给出解决方案。

图片

不要写提示,而要写简介

提供大量的上下文。

o1会直接按照懒惰的问题来处理,不会试图从你那里获取上下文。相反,你需要尽可能多地向o1提供上下文。

图片

简而言之,把o1当作新员工对待。注意o1的错误包括对其应该进行多少推理的推理。有时,方差未能准确映射到任务难度。例如,如果任务真的很简单,它往往会毫无理由地陷入推理的兔子洞。

让o1更容易获取上下文的技巧

  1. 建议使用mac/手机上的语音备忘录应用程序。只需描述整个问题空间1-2分钟,然后将转录内容粘贴进去。

  2. 出现在产品中的AI助手通常可以更容易地进行这种提取。例如,如果你使用Supabase,尝试让Supabase助手转储/描述所有相关的表/RPC等。

花 10 倍以上的时间去提示

图片

关注目标:描述你想要什么

在大多数模型中,我们被训练成告诉模型我们想要它如何回答我们。例如,“你是一位专家软件工程师。思考要慢+仔细”。

o1成功的方法恰恰相反。我不指导它如何操作——只指导它是什么。然后让o1接管并自行规划和解决问题。这就是自主推理的作用,实际上可能比你手动审查和聊天作为“人类环节”要快得多。

图片

了解o1擅长和不擅长的事情

  1. o1擅长的方面

    • 一次性生成整个/多个文件

    • 幻觉更少

    • 医疗诊断

    • 解释复杂概念

    • 生成多个计划并比较优缺点

    • 额外奖励:评估

  2. o1目前还不擅长的方面

    • 以特定的声音/风格写作

    • 构建整个应用程序

https://www.latent.space/p/o1-skill-issue

来源 | PaperAgent

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值