您现在的位置是:亿华云 > 域名
DeepMind丢掉了归一化,让图像识别训练速度提升了8.7倍 | 已开源
亿华云2025-10-04 03:16:46【域名】5人已围观
简介金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI在大规模图像识别任务上,DeepMind的新方法火了。不仅拿到了SOTA,训练速度还提升了8.7倍之多!方法关键:去“批处理归一化”对于大多数
金磊 发自 凹非寺
量子位 报道 | 公众号 QbitAI在大规模图像识别任务上,丢掉度提DeepMind的归化新方法火了。
不仅拿到了SOTA,让图训练速度还提升了8.7倍之多!像识
方法关键:去“批处理归一化”
对于大多数图像识别模型来说,批处理归一化(batch normalization)是练速非常重要的组成部分。
但与此同时,升倍这样的已开源方式也存在一定的局限性,那就是丢掉度提它存在许多并不重要的特征。
虽然近期的归化一些研究在没有归一化的情况下,成功训练了深度ResNet,让图但这些模型与最佳批处理归一化网络的像识测试精度不相匹配。
而这便是别训DeepMind此次研究所要解决的问题——提出了一种自适应梯度剪裁(AGC) 技术。高防服务器
具体而言,练速这是升倍一种叫做Normalizer-Free ResNet(NFNet)的新网络。
整体来看,NFNet的整体结构如上图所示。
以有无“transition块”来划分,可以再细分为2种情况。
其中,它们的bottleneck ratio均设置为0.5,且在3 x 3的卷积中,无论信道的数量为多少,组宽都固定为128。
二者的区别在于skip path接收信号的方式,左侧的是在用β进行variance downscaling和缩放非线性之后;而右侧则是在用β进行variance downscaling之前完成。服务器租用
实验结果
在实验部分,DeepMind的研究人员,采用了与NFNet相关的7个模型做了对比实验,分别是NFNet-F0至NFNet-F6。
不难看出,在各个模型的对比过程中,在Top-1精度方面均取得了最好结果。
值得一提的是,与EfficientNet-B7相比,训练速度方面提升了8.7倍之多。
此外,在对3亿张标记图像进行大规模预训练后,在ImageNet上还取得了89.2%的Top-1精度。
最后,对于这项研究的代码,也已在GitHub上开源。云服务器
很赞哦!(228)