可举一反三的人工智能自主学习算法创新--从灵感到具体实现1

引言

​ 本文旨在发明一种可以举一反三的算法,算法可以学习正在执行的任务中对目标状态影响最大或者价值最大的状态之间的关系,然后利用这种关系,将这种关系运用到其他任务中,从而实现举一反三,从而快速的适应新的任务。算法可以自主去学习对目标状态影响最大或者价值最大的所有状态之间的模式或者关系或者说是隐性的技能,然后将这种关系或者或者说是隐性的技能或者思想运用到其他任何领域的任务中,或者说算法可以在没有使用这种技能的条件下创造使用该技能的条件,从而快速完成任务,还可以降低训练数据量,算法主要是以潜在的隐性的技能为主

思路

​ 总体思路是设计一个能够自动发现、学习并迁移隐性“技能”或状态关系的元学习算法,我们暂且称之为 “Latent Impact Skill Transfer (LIST)” 算法。主要包括以下几个模块:


1. 关键理念

  • 隐性技能与状态关系
    算法的核心目标是自动识别任务中对目标状态(或奖励)影响最大的状态之间的关系,也就是说,找出哪些状态转移或状态组合在达成任务目标时起到了“举一反三”的关键作用。这些隐性技能可以看作是任务间的共享知识,能够在新任务中帮助模型迅速构造出有效策略。
  • 跨任务迁移
    在多任务训练阶段,通过捕捉上述隐性技能和状态关系,构建一个通用的元知识库;当遇到新任务时,算法可以利用这个元知识库快速推断出任务中哪些状态组合可能具有较大价值,甚至创造出使用该技能的条件,从而快速适应任务,并降低对大规模训练数据的依赖。

2. 算法结构设计

2.1 价值影响评估模块
  • 目标:对当前任务中每个状态(或状态转移)估计其对目标状态(或累积奖励)的影响程度。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

帮带做

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值