Tensorflow 多个损失函数合成与多个损失函数多次操作的区别（Tensorflow: Multiple loss functions vs Multiple training ops）

最新推荐文章于 2024-09-24 23:05:01 发布

xiaoxifei

最新推荐文章于 2024-09-24 23:05:01 发布

阅读量5.7k

点赞数 7

分类专栏：深度学习文章标签： tensorflow 合成损失函数损失函数多次优化多个损失函数

本文链接：https://blog.youkuaiyun.com/xiaoxifei/article/details/100982595

版权

深度学习专栏收录该内容

37 篇文章

订阅专栏

本文探讨了在深度学习中联合训练与交替训练的区别。联合训练适用于共享特征的多任务模型，如目标检测中的分类与回归。而交替训练则适用于多输出但特征独立的任务，如多语言翻译。文章分析了两种方法的适用场景与潜在问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

代码样例

第一种情况

final_loss = tf.reduce_mean(loss1+loss2)
train_op = tf.train.AdamOptimizer().minimize(final_loss)

第二种情况

train_op1 = tf.train.AdamOptimizer().minimize(loss1)
train_op2 = tf.train.AdamOptimizer().minimize(loss2)
final_train_op = tf.group(train_op1 train_op2)

上述两种情况的差别分析

第一种情况是一种混合训练(joint training),这种方式是统一同时考虑多个loss的影响；这种方式常用在使用同一数据集进行训练，使用同一feature但是不同输出任务的模型训练过程中，比如目标检测领域的分类与回归任务要求采用同样的feature [1]。
第二种情况是一种选择性学习(alternative training),这并不是同时考虑两种loss的约束，而是试图在两种任务中取得某种平衡，一般而言会使用在模型有多个输出，但是这多个输出并不使用同样的feature；比如在指引第一个op时可能使用某些feature导致的结果，而在使用第二个op时可能使用的是另外一些featrue的结果。

上述两种情况可用下图进行归纳：
在这里插入图片描述
上图是 Alternative training，可见使用了不同的layer导出的结果

在这里插入图片描述
上图是 Joint training ,可见使用的是同样的feature进行的判断

如何选择上述两种方法

第二种方法常用于这样的场合：你具有两种不同的数据集，并且需要执行不同的任务，但是网络设计的feature 提取部分确需要是相同的，比如你需要将英文转变为法文，与此同时你也需要模型能将同样的英文输入转为德文；但是这种方法的使用往往取决于你的样本数量，如果样本数量严重不匹配，比如法文数据集远大于德文数据集，那么训练时很容易造成同法文翻译相关的某些bias 难以适应德文，因而造成训练困难。
第一种方法适合于处理上述第二种方法的缺陷，这相当于是迫使loss做困难样本的在线挖掘并加强处理；另外采用第一种方法需要注意的是，如果存在有的loss 的返回值远小于其他loss的情况，如果在送入优化器之前直接相加这会导致这些loss的信息被忽略；一个有效的办法是采用第二种办法进行训练，同时采用Adam优化器，因为Adam优化器在loss输入后会进行normalize处理，同具体的loss值大小关系不大。

总的来说，我个人比较倾向于采用第二种方案来进行训练，因为大体上来讲可以将不同种类的loss设置不同的优化方案，并且在大多数情况下第二种和第一种的差距十分小。