英伟达提出全局上下文视觉Transformer,称为GCViT,其在图像分类、物体检测和语义分割任务中取得了最先进的结果。
这是一种提高参数和计算利用率的新颖架构,其利用全局上下文自我注意模块,与局部自注意相结合,有效地对长距离和短距离的空间互动进行建模,而不需要进行额外的操作,如计算注意掩码或转移局部窗口。还在架构中使用改进的融合倒置残差块(fused inverted residual blocks)来解决ViTs中缺乏感应偏置(inductive bias)的问题。实验表明所提出的 GCViT 在图像分类、物体检测等任务中取得了最先进的结果。
原始论文:
https://arxiv.org/abs/2206.09959v1
源码:
https://github.com/NVlabs/GCVit