您现在的位置是：亿华云 > 域名

DeepMind丢掉了归一化，让图像识别训练速度提升了8.7倍 | 已开源

亿华云2025-10-04 03:16:46【域名】5人已围观

简介金磊发自凹非寺量子位报道 | 公众号 QbitAI在大规模图像识别任务上，DeepMind的新方法火了。不仅拿到了SOTA，训练速度还提升了8.7倍之多！方法关键：去“批处理归一化”对于大多数

金磊发自凹非寺

量子位报道 | 公众号 QbitAI

在大规模图像识别任务上，丢掉度提DeepMind的归化新方法火了。

不仅拿到了SOTA，让图训练速度还提升了8.7倍之多！像识

对于大多数图像识别模型来说，批处理归一化（batch normalization）是练速非常重要的组成部分。

但与此同时，升倍这样的已开源方式也存在一定的局限性，那就是丢掉度提它存在许多并不重要的特征。

虽然近期的归化一些研究在没有归一化的情况下，成功训练了深度ResNet，让图但这些模型与最佳批处理归一化网络的像识测试精度不相匹配。

而这便是别训DeepMind此次研究所要解决的问题——提出了一种自适应梯度剪裁（AGC）技术。高防服务器

具体而言，练速这是升倍一种叫做Normalizer-Free ResNet（NFNet）的新网络。

整体来看，NFNet的整体结构如上图所示。

以有无“transition块”来划分，可以再细分为2种情况。

其中，它们的bottleneck ratio均设置为0.5，且在3 x 3的卷积中，无论信道的数量为多少，组宽都固定为128。

二者的区别在于skip path接收信号的方式，左侧的是在用β进行variance downscaling和缩放非线性之后；而右侧则是在用β进行variance downscaling之前完成。服务器租用

在实验部分，DeepMind的研究人员，采用了与NFNet相关的7个模型做了对比实验，分别是NFNet-F0至NFNet-F6。

不难看出，在各个模型的对比过程中，在Top-1精度方面均取得了最好结果。

值得一提的是，与EfficientNet-B7相比，训练速度方面提升了8.7倍之多。

此外，在对3亿张标记图像进行大规模预训练后，在ImageNet上还取得了89.2%的Top-1精度。

最后，对于这项研究的代码，也已在GitHub上开源。云服务器

很赞哦!（228）