LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding
Structure

- Text Embedding: [CLS] + Text Seq + [PAD] + [SEP],会对每个token分一个确定的segment

- visual embedding:依旧是通过ResNeXt-FPN特征,然后通过average-pooled到HW,visual embedding length就是HW,这就是VisTokEmb(I),通过FC将dim同步到text embedding大小,对于segment embedding来说,会把每个visual token attach到对应的visual segment上

- Layout Embedding 同layoutlmv1,normalize box到1000,

模型输入:v为visual embedding,t为token embedding

为了让encoder感知bounding box之间的layout信息,所以提出Spatial-Aware self attention:

b为learnable参数
attention计算方法为:

758





