著名青少年白癜风研究专家 http://m.39.net/disease/a_5951583.html我们引入了一个自我监督的视觉表示模型BEIT,它代表用于图像转换器的双向编码器表示。下列的BERT(Devlinetal.,)在自然语言处理领域发展起来,我们提出一个蒙版图像建模任务来预训练视觉变压器。具体来说,每个图像在我们的预训练中有两个视图,即图像块(例如16×16像素)和视觉标记(即离散标记)。我们首先将原始图像“标记”为视觉标记。然后我们随机屏蔽一些图像块并喂给它们进入主干变压器。预训练的目标是恢复原始基于损坏的图像补丁的视觉标记。在对BEIT进行预训练后,我们通过附加任务直接微调下游任务的模型参数预训练编码器上的层。图像分类实验结果和语义分割表明,我们的模型取得了有竞争力的结果之前的预训练方法。例如,base-sizeBEIT达到83.2%top-1ImageNet-1K上的准确率,明显优于从头开始的DeiT训练(81.8%;Touvron等人,)具有相同的设置。此外,大尺寸BEIT仅使用ImageNet-1K就获得了86.3%,甚至在有监督的情况下也优于ViT-L在ImageNet-22K上进行预训练(85.2%;Dosovitskiy等,)。代码和预训练模型可在