【第49篇】Swin Transformer V2:扩展容量和分辨率

摘要

https://arxiv.org/pdf/2111.09883.pdf
大规模 NLP 模型已被证明可以显着提高语言任务的性能,并且没有饱和迹象。它们还展示了与人类一样的惊人的少发能力。本文旨在探索计算机视觉中的大规模模型。我们解决了大型视觉模型训练和应用中的三个主要问题,包括训练不稳定性、预训练和微调之间的分辨率差距以及对标记数据的渴望。提出了三种主要技术:1)残差后范数方法结合余弦注意提高训练稳定性; 2) 一种对数空间连续位置偏差方法,可有效地将使用低分辨率图像预训练的模型转移到具有高分辨率输入的下游任务; 3) 一种自我监督的预训练方法 SimMIM,以减少对大量标记图像的需求。通过这些技术,本文成功训练了一个 30 亿参数的 Swin Transformer V2 模型,这是迄今为止最大的密集视觉模型,并使其能够训练分辨率高达 1536 ×1536 的图像。它在 ImageNet-V2 图像分类、COCO 对象检测、ADE20K 语义分割和 Kinetics-400 视频动作分类等 4 个具有代表性的视觉任务上创造了新的性能记录。另请注意,我们的训练比 Google 的十亿级视觉模型高效得多,后者消耗的标记数据少 40 倍,训练时间少 40 倍。代码:https://github.com/microsoft/Swin-Transformer。

介绍

扩展语言模型已经取得了令人难以置信的成功。 它显着提高了模型在语言任务上的性能 并且该模型展示了与人类相似的惊人的少数镜头能力 。 自从有了 3.4 亿参数的 BERT 大模型,语言模型在几年内迅速扩大了 1000 多倍,达到 5300 亿个密集参数和 1.6 万亿个稀疏参数 。 这些大型语言模型还被发现具有越来越强大的小样本能力,类似于人类智能,可用于广泛的语言任务 。

另一方面,

  • 4
    点赞
  • 2
    收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
©️2022 CSDN 皮肤主题:博客之星2021 设计师:Hiro_C 返回首页
评论

打赏作者

AI浩

你的鼓励将是我创作的最大动力

¥2 ¥4 ¥6 ¥10 ¥20
输入1-500的整数
余额支付 (余额:-- )
扫码支付
扫码支付:¥2
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值