从NLP到视觉的Transformer模型探索
1. DeBERTa模型
1.1 模型概述
DeBERTa是一种创新的Transformer架构,由Pengcheng He、Xiaodong Liu、Jianfeng Gao和Weizhu Chen设计。它通过解耦的方式为Transformer带来了新的思路,在AI中,解耦可以分离表示特征,使训练过程更加灵活。
1.2 主要思想
- 分离Transformer模型中的内容和位置,分别训练这两个向量。
- 在解码器中使用绝对位置来预测预训练过程中的掩码标记。
1.3 代码资源
作者在GitHub上提供了代码: https://github.com/microsoft/DeBERTa
1.4 模型表现
DeBERTa在SuperGLUE排行榜上超过了人类基线。
1.5 运行示例
要在Hugging Face的云平台上运行示例,可点击以下链接: https://huggingface.co/cross-encoder/nli-deberta-base 。需要注意的是,Transformer模型的随机性可能导致运行结果不同,且在线平台的界面会不断变化,我们需要接受并适
超级会员免费看
订阅专栏 解锁全文
8万+

被折叠的 条评论
为什么被折叠?



