- bert的mask到底有什么问题?
- 损失函数Ld的符号对吗?确实有负号,在正式版已经修改了。
- 联合训练具体怎么操作的?
- electra相对Bert, 学到了更细粒度得语义特征。判别式学习的就是如何去分辨近义词的细微差别,生成器可认为是一个近义词生成器。
ELECTRA论文
最新推荐文章于 2025-01-04 01:00:00 发布
479
419
565

被折叠的 条评论
为什么被折叠?