可举一反三的人工智能自主学习算法创新--从灵感到具体实现1
引言
本文旨在发明一种可以举一反三的算法,算法可以学习正在执行的任务中对目标状态影响最大或者价值最大的状态之间的关系,然后利用这种关系,将这种关系运用到其他任务中,从而实现举一反三,从而快速的适应新的任务。算法可以自主去学习对目标状态影响最大或者价值最大的所有状态之间的模式或者关系或者说是隐性的技能,然后将这种关系或者或者说是隐性的技能或者思想运用到其他任何领域的任务中,或者说算法可以在没有使用这种技能的条件下创造使用该技能的条件,从而快速完成任务,还可以降低训练数据量,算法主要是以潜在的隐性的技能为主
思路
总体思路是设计一个能够自动发现、学习并迁移隐性“技能”或状态关系的元学习算法,我们暂且称之为 “Latent Impact Skill Transfer (LIST)” 算法。主要包括以下几个模块:
1. 关键理念
- 隐性技能与状态关系
算法的核心目标是自动识别任务中对目标状态(或奖励)影响最大的状态之间的关系,也就是说,找出哪些状态转移或状态组合在达成任务目标时起到了“举一反三”的关键作用。这些隐性技能可以看作是任务间的共享知识,能够在新任务中帮助模型迅速构造出有效策略。 - 跨任务迁移
在多任务训练阶段,通过捕捉上述隐性技能和状态关系,构建一个通用的元知识库;当遇到新任务时,算法可以利用这个元知识库快速推断出任务中哪些状态组合可能具有较大价值,甚至创造出使用该技能的条件,从而快速适应任务,并降低对大规模训练数据的依赖。
2. 算法结构设计
2.1 价值影响评估模块
- 目标:对当前任务中每个状态(或状态转移)估计其对目标状态(或累积奖励)的影响程度。

最低0.47元/天 解锁文章
344

被折叠的 条评论
为什么被折叠?



