
论文解读
文章平均质量分 90
计算机视觉、nlp、LLM等相关方向论文分析
xddwz
这个作者很懒,什么都没留下…
展开
-
ALBEF算法解读
ALBEF论文全名Align before Fuse: Vision and Language Representation Learning with Momentum Distillation,来自于Align before Fuse,作者团队为Salesforce Research。原创 2024-02-20 20:06:13 · 1457 阅读 · 1 评论 -
VILT算法解读
首先是文本输入,原始的文本输入可以看成是一个单词序列(比如图中的a,stone,statue等等),然后通过Word Embedding算法处理为词嵌入向量,所谓词嵌入向量就是一个高维的向量表征,同一个单词具有相同的嵌入表征,同时同义词的表征距离越近(具体词嵌入的过程可以参考NLP的一些资料,简单来说就是需要一个词汇表(vocabulary dict),然后将单词分词后转化为词汇表中的索引,再将数字索引变为高维向量)。由于视觉和文本输入被转化为了相同的token特征,所以后续的处理方式就可以统一了。原创 2024-02-20 16:09:48 · 1249 阅读 · 0 评论