1.Approach 1.1 Architecture 预训练人物是根据可见图像块回归masked evaclip视觉特征,使用IN-1K图像训练300epoch, 1.2 Pre-training strategy