加入收藏 | 设为首页 | 会员中心 | 我要投稿 52站长网 (https://www.52zhanzhang.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 传媒 > 正文

视觉Transformer BERT预训练新方法 中科大 MSRA等提出PeCo

发布时间:2021-12-06 17:27:27 所属栏目:传媒 来源:互联网
导读:基于大型语料库训练的 Transformer 模型在自然语言处理中取得了巨大的成功,作为 Transformer 构建块,self-attention 极大地改变了计算机视觉任务。NLP 的成功不仅依赖于 Transformer 的计算效率和可扩展性,还依赖于对大量文本进行自监督学习。目前 NLP 领
基于大型语料库训练的 Transformer 模型在自然语言处理中取得了巨大的成功,作为 Transformer 构建块,self-attention 极大地改变了计算机视觉任务。NLP 的成功不仅依赖于 Transformer 的计算效率和可扩展性,还依赖于对大量文本进行自监督学习。目前 NLP 领域存在两种主流的学习范式:基于自回归语言建模的 GPT 和基于掩码语言建模的 BERT,这两者在计算机视觉领域中也被重新设计,以便充分利用海量的网络图像。
 
然而,在视觉任务上设计具有相似风格的目标是具有挑战性的,因为图像作为一种高维和冗余的模态,在两个方面与文本不同:首先,文本由离散字符组成,而图像在颜色空间中呈现连续值;其次,文本中的离散 token 包含高级语义含义,而离散化的图像在像素级和 patch 级包含大量冗余 token。
 
因此,我们不禁会问是否有一种方法可以学习感知离散视觉 token,这将有助于图像预训练。
 
基于上述观察,来自中国科学技术大学、微软亚研等机构的研究者提出了学习感知 codebook( perceptual codebook ,PeCo),用于视觉 transformer 的 BERT 预训练。目前,BEiT 成功地将 BERT 预训练从 NLP 领域迁移到了视觉领域。BEiT 模型直接采用简单的离散 VAE 作为视觉 tokenizer,但没有考虑视觉 token 语义层面。相比之下,NLP 领域中的离散 token 是高度语义化的。这种差异促使研究者开始学习感知 codebook,他们发现了一个简单而有效的方法,即在 dVAE 训练期间强制执行感知相似性。
 
该研究证明 PeCo 生成的视觉 token 能够表现出更好的语义,帮助预训练模型在各种下游任务中实现较好的迁移性能。例如,该研究使用 ViT-B 主干在 ImageNet-1K 上实现了 84.5% 的 Top-1 准确率,在相同的预训练 epoch 下比 BEiT 高 1.3。此外,该方法还可以将 COCO val 上的目标检测和分割任务性能分别提高 +1.3 box AP 和 +1.0 mask AP,并且将 ADE20k 上的语义分割任务提高 +1.0 mIoU。
 
方法
在自然语言中,词是包含高级语义信息的离散 token。相比之下,视觉信号是连续的,具有冗余的低级信息。在本节中,该研究首先简要描述了 VQ-VAE 的离散表示学习,然后介绍如何学习感知 codebook 的过程,最后对学习感知视觉 token 进行 BERT 预训练。

(编辑:52站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读