强化微调——逐步向传统教育靠拢

这一次OpenAI 的发布会提到了一个有意思的东西——强化微调。主要用在专业领域内,有特定准确答案最好,可以通过强化学习+微调训练大模型在该领域的逻辑性问题。
其实就是两个传统训练方式的组合,微调逐步改进大模型,强化学习保证大模型走在正确的学习路线上。
现在再看一看,是不是觉得大模型训练越来越传统了?就和训练动物一样,跟着指令做对了给个好吃的,做错了就没有奖励,逐步建立对指令的服从性。
其实这个方法他们可能很早就想到并在使用了,只是这一次公布了出来。我在这里说得更大胆一些,如果不是前期训练的数据量太大加训练成本太高,很可能他们会选择训练一部分数据然后强化微调一下,以此往复。(甚至可能现在就是这么做的)
这么一来,大模型——现在的人工智能集成体,训练与突破方法还是要从传统的教育方法上入手。这也侧面验证了,大批量一次性输入海量知识其实对逻辑的构建没有显著帮助。逻辑能力是一个递进过程,并不是一蹴而就的。
现在人类为什么能形成逻辑能力还没有研究出来,在现在这种情况下,不如人工智能和人脑科学合作,直接招募顶尖学府的顶尖学生进行相关思维实验。既然目标是做出超越人类的智能,应该放弃普通人的思维模式,直接从“天才”入手,在院里还不明朗的情况下先模仿,行动与理论同步推进。
当然这些都是一个普通人的妄言,如果有更专业的想法,欢迎评论留言。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值