文章要点:
微软研究人员发现傅里叶变换可以实现Token融合,计算代价远低于大内核卷积。
基于该发现设计了Adaptive Fourier Filter(AFF) Token Mixer,将计算复杂度降为O(NlogN)。
使用AFF Token Mixer构建了轻量级神经网络AFFNet,在ImageNet上取得79.8%准确率。
站长之家(ChinaZ.com)8月24日 消息:微软亚洲研究院的研究人员最近在 ICCV2023上发表了一篇论文,提出了一种名为 Adaptive Fourier Filter(AFF)的轻量高效 Token Mixer,可以显著降低视觉神经网络的计算复杂度。论文显示,通过傅立叶变换可以等效地实现 Token 的融合,而计算量远小于直接使用大内核卷积进行 Token 融合。基于该核心思想,研究员设计了 AFF Token Mixer,可以将 Token 融合的计算复杂度从 O(N^2) 降低到 O(NlogN),同时实现全局自适应的 Token 融合。
论文地址:https://arxiv.org/abs/2307.14008
论文的主要贡献包括:1)证明了频域卷积可以实现与大内核卷积等效的 Token 融合,但计算量更低;2)设计了 AFF Token Mixer,可以高效全局融合 Token;3)基于 AFF Mixer 构建了轻量级神经网络 AFFNet。
AFF Token Mixer 的设计思路是:首先通过 FFT 把 Token 映射到频域,然后在频域学习一个内容自适应的滤波掩模。最后对频域进行滤波来实现 Token 的自适应融合。根据频域卷积定理,这在数学上等价于在原始域使用一个与 Token 集大小相同的大动态卷积核进行卷积。但频域滤波的计算量仅为 O(NlogN),远小于 O(N^2) 的空间卷积。
基于 AFF Token Mixer,研究人员构建了轻量级的全卷积网络 AFFNet,以其作为主干网络。在 ImageNet 图像分类任务上,AFFNet 仅使用550万参数就达到了79.8% 的准确率,优于其他轻量级模型如 VoVNet 和 RegNet 等。更令人惊讶的是,AFFNet 在多个下游任务上也展现出色的性能,如在 COCO 检测和 ADE20K 分割上明显超过了使用相近复杂度的模型。
本研究验证了频域变换在降低 Token 融合计算复杂度方面的有效性。AFF Token Mixer 为轻量级全局信息融合提供了新的有效途径。基于该 Token Mixer 构建的 AFFNet 作为新的轻量级 CNN 主干网络,有望推动更多视觉模型在边缘设备上的应用。本研究为探索有效的轻量级视觉网络结构提供了新的思路和范式。
相关教程
2024-02-21
2023-08-04
2023-12-19
2023-11-28
2024-01-10
2024-02-21
2023-06-20
2024-06-14
2024-10-15
2024-11-17
2024-11-16
2024-11-16
2024-11-15
2024-11-15
2024-11-15