迁移学习地图

本文探讨了深度迁移学习的前沿进展,包括Partial Transfer Learning、Importance Weighted Adversarial Nets和GLoMo等方法,旨在解决源域和目标域标签空间不完全匹配的挑战,通过特征提取、关系图学习等策略提升模型泛化能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

神经网络迁移学习

  • 对抗迁移

    • Partial Transfer Learning with Selective Adversarial Networks
      • 分类:基于样本的迁移学习方法;解决的是在源域的标签空间包含目标域的标签空间情况下,迁移学习的问题,其中目标域无标记数据,源域中有大量的标记数据。
      • 方法:利用gan的判别器来选择与目标域样本相近的源域实现迁移
      • 数据:
        1. 网络架构:G_f特征提取(feature extractor)和 G_y标签预测(label predictor).其中G_y包含判别器D
        2. 流程:源域和目标域的数据经过cnn网络提取特征,判别器该特征是否属于源域还是目标域,与此同时G_y预测数据的标签。
        3. loss:使得源域分类器错误最小;子判别器对每个类别要判别出该特征是属于源域还是目标域;为了减小子判别器对于样本的依赖所以减小目标域的熵
      • 训练:通过最小化Loss求出特征提取和标签预测的参数;通过最大化Loss学习判别器的参数
      • 论文地址
      • 代码
    • Importance Weighted Adversarial Nets for Partial Domain Adaptation
      • 分类:基于样本的迁移学习方法;解决的是在源域的标签空间包含目标域的标签空间情况下,迁移学习的问题,其中目标域无标记数据,源域中有大量的标记数据。
      • 方法:用两个判别器,一个计算权重,一个优化目标域分类器,解决迁移学习中的域漂移
      • 数据:
        在这里插入图片描述
        1. 首先训练源域分类器:F_s,C.其后的训练源域特征提取器都固定住。
        2. 同时优化领域判别器D,D_0和目标域特征提取器F_t。其中用源域训练好的特征提取器F_s初始化F_t
          1. ) 通过固定住的F_s和当前的F_t得到重要权重w
          2. ) D_0,F_t通过极小极大化博弈学习参数,通过熵最小化学习目标域分类器
      • 论文地址
  • 深度迁移

    • GLoMo: Unsupervisedly Learned Relational Graphs as Transferable Representations
      • 分类:无监督迁移学习。(源域和目标域都没有标签);学习一种结构(特征之间的关联矩阵)将它应用到即将要迁移的任务中。
      • 方法:用无监督的网络提取特征,并学习特征之间的关系,将这部分知识迁移到另一个任务中。
      • 数据::
        1. 图预测器(graph predictor):输入x,输出图的集合G=f(x)
          给定一个x,经过两个CNN网络(key CNN 和 query CNN)提取特征。 key CNN的每一层都输出一列特征(k_1,k_2,…,k_T),query CNN同理输出(q_1,q_2,…,q_T).计算该层特征之间的相关性,输出该层的关联矩阵。
        2. 特征预测(feature predictor)f:输入x和关联矩阵G,输出每一层的特征,最后一层的特征见下一节。每一层的特征都是通过上一层的特征和该层的图G计算的。其中第一层仅给出x。
        3. objective function:通过2,得到最终的特征F,将最后一层的特征f_L输入到RNN的decoder中,预测出x_t。
        4. loss:在objective function上,最大化条件概率分布。

          在无监督学习阶段,特征预测器和图形预测器被一起训练以执行上下文预测。在迁移阶段,图形预测器被冻结并用于提取下游任务的图形。RNN 解码器应用于特征预测器中的所有位置,但是简单起见,我们仅指出了位置「A」处的一个。「Select one」表示图形可以迁移到下游任务模型中的任何层。「FF」指前馈网络。图形预测器输出的图用作「weighted sum」操作中的权重
          在这里插入图片描述
      • 论文地址
    • Deep Transfer Learning with Joint Adaptation Networks
    • Distant Domain Transfer Learning (2017)
### 迁移学习与强化学习结合的应用实例 在实际应用中,迁移学习与强化学习的结合能够显著提升智能系统的性能和泛化能力。以CartPole游戏为例,在该环境中,通过基于领域自适应的迁移学习技术,可以从其他相似的任务(如倒立摆控制或其他平衡类任务)获取先验知识并迁移到当前任务中[^1]。 #### 实现方法一:先学习再迁移 一种常见的做法是首先在一个或多个源域任务上训练一个基础策略网络,之后将此预训练好的模型参数作为初始化条件用于新环境下的微调过程。这种方法不仅加快了收敛速度还提高了最终表现水平。 ```python import gym from stable_baselines3 import PPO # Load source domain model (pre-trained on similar task) source_env = gym.make('SourceTask-v0') model = PPO.load("ppo_source_task") # Fine-tune the pre-trained model on target domain target_env = gym.make('CartPole-v1') model.set_env(target_env) for i in range(epochs): model.learn(total_timesteps=steps_per_epoch) ``` #### 方法二:引入强化机制改进迁移效果 另一种方式则是在执行特征空间映射的同时考虑到来自不同分布的数据之间的差异性,并利用奖励信号指导这种转换过程更加合理有效。这通常涉及到设计特殊的损失函数来衡量两个概率密度间的距离以及定义额外的目标使得agent能够在新的场景下快速调整自己的行为模式。 #### 应用案例分析 - **机器人导航**:当面对未知地形时,先前积累的经验可以帮助机器人更快地找到最优路径而无需重新探索整个地图;同时借助即时反馈不断修正路线直至成功到达目的地。 - **自动驾驶汽车**:车辆可以在模拟器内经过大量驾驶练习后掌握基本技能集,随后把这些技巧平滑过渡至真实道路上继续完善其决策制定流程,从而降低事故风险并提高安全性。 - **个性化推荐系统**:平台可以根据用户过往交互记录预测偏好趋势并向他们推送感兴趣的商品/服务信息,随着互动次数增加持续优化建议质量达到双赢局面。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值