Paper Reading Notes

原创

已于 2022-12-17 11:10:22 修改 · 516 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能

于 2022-10-16 09:29:28 首次发布

这篇博客总结了深度学习领域的多个重要模型，包括GPT系列（GPT1到GPT3，以及instructGPT），多模态研究中的visualBERT、Unicoder-VL、UNITER和ViLT，以及DeBERTa的改进。此外，还介绍了SSL方法、MMOE、无模板提示微调用于NER，以及多任务学习和半监督学习的概述。内容涵盖模型结构、预训练任务和多模态交互。

11，GPT

1，GPT1

Improving Language Understanding by Generative Pre-Training
finetune：
$L_2(C)+\lambda L_1(C)$
$L_1(C)=\sum_x\sum_iP(x_i|x_1,x_2,\cdots,x_{i-1})$
$L_2(C)=\sum_xP(y|x)$
在这里插入图片描述

2，GPT2

Language Models are Unsupervised Multitask Learners
继续finetune，但是变成seq2seq的形式，如：“translate to french, english text, french text”
model size:117M, 345M, 762M, 1542M

3，GPT3

Language Models are Few-Shot Learners
follow GPT2，但不做finetune，做zero-shot和few-shot
在这里插入图片描述

4，instructGPT

在这里插入图片描述
1,SFT
fine-tune GPT-3 on our labeler demonstrations
2,RM
Starting from the SFT model with the final unembedding layer removed, we trained a model to take in a prompt and response, and output a scalar reward
数据：人工排序K个样本，将K个样本两两比较：
在这里插入图片描述
3,RL

这个公式是啥， $\pi$ 是啥结构，都没讲清楚
这并不是创新的工作，抄的前面一篇Learning to summarize from human feedback