LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding
Structure
- Text Embedding: [CLS] + Text Seq + [PAD] + [SEP],会对每个token分一个确定的segment
- visual embedding:依旧是通过ResNeXt-FPN特征,然后通过average-pooled到HW,visual embedding length就是HW,这就是VisTokEmb(I),通过FC将dim同步到text embedding大小,对于segment embedding来说,会把每个visual token attach到对应的visual segment上
- Layout Embedding 同layoutlmv1,normalize box到1000,
模型输入:v为visual embedding,t为token embedding
为了让encoder感知bounding box之间的layout信息,所以提出Spatial-Aware self attention:
b为learnable参数
attention计算方法为: