
多任务模型
文章平均质量分 91
chad_lee
看论文的
展开
-
【多模态】MoE解决多模态单双塔问题 VLMo: Unifified Vision-Language Pre-Training with Mixture-of-Modality-Experts
之前在秋招和写毕业论文,一个月没更了。毕业论文交了,开更。原创 2022-09-20 13:45:38 · 4642 阅读 · 5 评论 -
【多任务模型】腾讯MFH《Multi-Faceted Hierarchical Multi-Task Learning for a Large Number of Tasks
特别是task非常多的时候又有新的问题一般一个MTL模型只能处理2~6个任务,对于10~20个任务一般需要2~3个MTL模型,所以当任务数量多起来的时候1、task之间会有复杂的关系;以往的MTL都是在微观级别上创新Switcher的结构,以提高合作学习的效率,这一定程度上是因为他们的场景task少,negativetransfer没这么严重。类似FM的思想,将多棵H-MTL交叉,每棵树是一个强语义表示,像FM一样对每棵树进行“特征交叉”,自动的构造多个任务的组合,从而提高了学习的效率和质量。......原创 2022-08-01 23:37:57 · 1182 阅读 · 0 评论 -
【多任务CTR】阿里ESMM:Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conve
pCVR=pCTCVR/pCTR,即分别训练一个CTCVR和CTR模型,然后相除得到pCVR,但是这样有一个明显的缺点是真实场景预测出来的pCTR、pCTCVR值都比较小,“除”的方式容易造成数值上的不稳定。”,想象一个场景,一个item,可能因为头图很丑,它被某个user点击的概率很低,但这个item内容本身完美符合这个user的偏好,若user点击进去,那么此item被user转化的概率极高。现在感觉解决方案已经呼之欲出了CVR是的样本是有偏的、CTR是无偏的,CTCVR样本是无偏的!......原创 2022-08-01 23:34:30 · 763 阅读 · 0 评论 -
【多任务优化】DWA、DTP、Gradnorm(CVPR 2019、ECCV 2018、 ICML 2018)
L=i∑Li显然这种做法有很大问题,因为不同task的label分布不同,同时不同task的loss量级也不同,整个模型很可能被一些loss特别大的任务主导。L=i∑wi∗LiL=i∑wi(t,θ)∗Lit是训练的step,theta是模型其他参数。但是这种做法也不一定有人工设计权重好。一些设计wi(t,θ)...原创 2022-07-25 22:47:00 · 1942 阅读 · 0 评论 -
【多任务模型】Progressive Layered Extraction: A Novel Multi-Task Learning Model for Personalized(RecSys‘20)
腾讯的视频推荐团队,建模的目标包含用户的多种不同的行为点击,分享,评论等等。score=pVTRwVTR×pVCRwVCR×pSHRwSHR×…×pCMRwCM×f(videolen)其中w是超参,表示相对重要性。原创 2022-07-25 22:44:31 · 281 阅读 · 0 评论 -
【多任务学习】Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts KDD18
在模型层面理解,我们在单目标中经常会花费大量的精力“找强特征”和“删冗余特征”输入到模型,提高模型效果。那么切换到MTL时,每个task所需要的“强特”和排斥的“负特”是不同的,MTL的目的就是对每个task尽可能的找到他们的强特和负特。在优化层面理解,多个task同时优化模型,某些task会主导了模型的优化过程,淹没了其他task。从监督信号的角度理解,MTL不仅仅是任务,也是一种数据扩增,相当于每个task多了k-1个监督信号来辅助学习,一些特征可以从其他task学的更好。...原创 2022-07-25 22:39:45 · 453 阅读 · 0 评论