YOLOv11全网最新创新点改进系列:由RFA开发的感受野注意力卷积操作RFAConv赋能YOLO,实时精准目标检测新纪元!
所有改进代码均经过实验测试跑通!截止发稿时YOLOv11已改进40+!自己排列组合2-4种后,考虑位置不同后可排列组合上千万种!改进不重样!!专注AI学术,关注B站up主:Ai学术叫叫兽!
购买相关资料后畅享一对一答疑!
摘要
空间注意力已被广泛用于提高卷积神经网络的性能。然而,它存在一些限制。在本文中,我们提出了一个关于空间注意力有效性的新视角,即空间注意力机制本质上解决了卷积核参数共享的问题。然而,生成的注意力图中包含的信息对于大尺寸卷积核来说是不足够的。因此,我们提出了一种新颖的注意力机制,称为感受野注意力(Receptive-Field Attention,RFA)。现有的空间注意力,如卷积块注意力模块(Convolutional Block Attention Module,CBAM)和协调注意力(Coordinated Attention,CA),仅关注空间特征,未能充分解决大尺寸卷积核的参数共享问题。相比之下,RFA不仅关注感受野空间特征,还为大尺寸卷积核提供了有效的注意力权重。由RFA开发的感受野注意力卷积操作(RFAConv)代表了一种替代标准卷积操作的新方法。它在计算成本和参数上几乎没有增加,同时显著提高了网络性能。我们在ImageNet-1k、COCO和VOC数据集上进行了系列实验,以证明我们方法的优越性。特别重要的是,我们认为现在是将焦点从空间特征转向感受野空间特征,以进一步提高网络性能并取得更好结果的时候了。
1 引言
卷积神经网络(Convolutional Neural Networks,CNNs)通过使用具有共享参数的卷积操作,显著降低了模型的计算开销和复杂性。这些网络受到经典网络的驱动,如LeNet [3]、AlexNet [4]和VGG [5],卷积神经网络现已建立了一个完整的系统,并形成了先进的卷积神经网络模型 [6, 7, 8, 9, 10]。在仔细研究卷积操作后,我们获得了启发。对于分类、目标检测和语义分割任务,一方面,图像中不同位置的物体在形状、大小、颜色和分布上是可变的。然而,在卷积操作过程中,卷积核在每个感受野中使用相同的参数来提取信息,这未能考虑来自不同位置的差异化信息。因此,网络的性能受到限制,正如最近的研究工作所证明的 [11, 12, 13]。另一方面,卷积过程未能考虑每个特征的重要性,这进一步降低了特征提取的效率,最终限制了模型的性能。此外,注意力机制 [14, 15, 16] 使模型能够集中关注重要特征,增强了特征提取的优势以及卷积神经网络捕捉详细特征信息的能力。
通过检查卷积操作的内在限制和注意力机制的属性,我们断言,尽管当前的空间注意力机制从根本上解决了卷积操作中的参数共享问题,但它仍然局限于空间特征的识别。当前的空间注意力机制未能充分解决大尺寸卷积核的参数共享问题。此外,它们无法强调感受野中每个特征的重要性,例如现有的卷积块注意力模块(CBAM) [17] 和协调注意力(CA) [18]。因此,我们提出了一种新颖的感受野注意力(Receptive-Field Attention,RFA),全面解决了卷积核参数共享的问题,并考虑了感受野中每个特征的重要性。
由RFA设计的感受野注意力卷积操作(RFAConv)是一种革命性的方法,可以替代当前神经网络中的标准卷积操作。仅增加少量额外的参数和计算开销,RFAConv就提升了网络性能。基于ImageNet-1k [19]、COCO [20]和VOC [21]的数据集进行的众多实验验证了RFAConv的有效性。作为一种基于注意力的卷积操作,RFAConv优于CAMConv、CBAMConv、CAConv(分别由CAM [17]、CBAM和CA构建)以及标准卷积操作。此外,为了解决当前方法在提取感受野特征时速度较慢的问题,我们提出了一种轻量级操作。在构建RFAConv的过程中,我们还设计了CBAM和CA的升级版本,并进行了相关实验。我们断言,空间注意力机制应当关注感受野空间特征,以进一步提升其发展并增强卷积神经网络的优势。
2 相关工作
2.1 卷积神经网络架构
卷积操作作为卷积神经网络的基本操作,推动了许多先进网络模型的发展,如车辆检测 [22]、无人机图像 [23]、医学图像处理 [24] 等。He 等人 [25] 建议,随着网络深度的增加,模型变得更难训练,可能会出现退化现象。为了解决这个问题,他们提出使用残差连接来革新网络设计。Huang 等人 [26] 通过重用特征来改善特征信息,以解决网络梯度消失的问题。在对卷积操作进行深入研究后,Dai 等人 [27] 声称,具有固定采样位置的卷积操作在某种程度上限制了网络性能。因此,他们提出了可变形卷积(Deformable Conv),通过学习偏移来改变卷积核的采样位置。在此基础上,进一步开发了可变形卷积 V2 [28] 和可变形卷积 V3 [29],以进一步提升卷积网络的性能。Zhang 等人 [30] 观察到,组卷积可以减少模型的参数数量和计算开销,但组内信息交互不足会对最终网络性能产生不利影响。尽管1×1卷积可以进行信息交互,但它会带来更多的参数和计算开销,因此他们提出了无参数的通道洗牌操作(Channel Shuffle)来实现组间信息交互。Ma 等人 [31] 发现,参数较少的模型并不总是导致更快的推理时间,同样,较小的计算努力也不能保证快速性能。经过仔细研究,他们提出了ShuffleNet V2。YOLO [32] 目标检测网络将输入图像划分为网格,以预测物体的位置和类别。随着研究的进展,基于YOLO已经提出了八个版本的目标检测器,如YOLOv5 [33]、YOLOv7 [34]、YOLOv8 [35]等。虽然上述卷积神经网络架构取得了显著成功,但它们并未直接解决特征提取过程中参数共享的问题。我们的工作重点是利用注意力机制,从一个新的视角来解决卷积参数共享的问题。
2.2 注意力机制
注意力机制作为一种提升网络模型性能的技术,使模型能够集中关注关键特征。注意力机制的理论在深度学习领域已经建立了一个完整而成熟的体系。Hu 等人 [36] 提出了Squeeze-and-Excitation(SE)模块,通过压缩特征以聚合全局通道信息,获得每个通道对应的权重。Wang 等人 [37] 认为,当SE与信息交互时,单个通道与权重之间的对应关系是间接的。因此,他们设计了高效通道注意力(Efficient Channel Attention,ECA),通过使用自适应核大小的一维卷积替代SE中的全连接层。Woo 等人 [17] 提出了卷积块注意力模块(Convolutional Block Attention Module,CBAM),结合了通道注意力和空间注意力。作为一个即插即用的模块,它可以嵌入到卷积神经网络中以增强网络性能。尽管SE和CBAM使网络能够实现良好的性能,但Hou 等人 [18] 发现SE和CBAM在压缩特征时丢失了过多的信息。因此,他们提出了轻量级的协调注意力(Coordinate Attention,CA)来解决这个问题。Fu 等人 [38] 设计了一个空间注意力模块和一个通道注意力模块,以扩展全卷积网络(FCN),分别在空间和通道维度上建模语义相互依赖关系。Zhang 等人 [39] 在通道上生成不同尺度的特征图,以构建更高效的通道注意力机制。本文介绍了一种新的方法来解决标准卷积操作中的参数共享问题。我们的方法涉及将注意力机制结合起来创建卷积操作。尽管现有的注意力机制已展示出良好的性能,但它们并未特别针对感受野的空间特征。为了解决这一限制,我们开发了具有非共享参数的RFAConv,以提高网络的性能。
3 方法
3.1 回顾标准卷积操作
标准卷积操作作为构建卷积神经网络的基本构建块,利用共享参数的滑动窗口来提取特征信息,克服了使用全连接层构建的神经网络的固有问题,如大量的参数和高计算开销。设输入特征图为 ( X \in \mathbb{R}^{C \times H \times W} ),其中 ( C )、( H ) 和 ( W ) 分别表示特征图的通道数、高度和宽度。为了清晰地展示通过卷积核提取特征的过程,我们以 ( C = 1 ) 为例。用于从每个感受野滑动窗口提取特征信息的卷积操作可表示如下:
(公式1)
如图1所示,( K ) 是一个3×3的卷积核,( S = 9 )。此外,图1中共有16个感受野滑动窗口。为了简化表示,我们只绘制了三个感受野滑动窗口。可以看出,每个滑动窗口中相同位置的特征共享相同的参数 ( K_i )。因此,标准卷积操作未能捕捉由不同位置带来的信息差异,最终在一定程度上限制了卷积神经网络的性能。
3.2 回顾空间注意力
目前,空间注意力机制使用通过学习获得的注意力图来突出每个特征的重要性。与前一节类似,取 ( C = 1 ) 为例。突出关键特征的空间注意力机制可以简单地表示如下:
(公式2)
这里,( F_i ) 表示加权操作后的值。( X_i ) 和 ( A_i ) 分别表示不同位置的输入特征图和学习到的注意力图的值,( N ) 是输入特征图的高度和宽度的乘积。通常,这个过程可以简单地表示在图2中。
图2显示了通过学习的注意力图突出原始特征图中的关键特征的过程。这一突出过程即为重新加权(×)操作。
3.3 空间注意力与标准卷积操作
众所周知,将注意力机制融入卷积神经网络可以增强其性能。在仔细研究标准卷积操作和现有的空间注意力机制后,我们认为空间注意力机制有效地克服了卷积神经网络的固有限制,即参数共享。目前,卷积神经网络中最常用的卷积核大小是1×1和3×3。引入空间注意力机制后的特征提取卷积操作是1×1或3×3卷积操作。为了直观展示这一过程,空间注意力机制被插入到1×1卷积操作的前面。通过注意力图进行加权操作(“重新加权”×),最终通过1×1卷积操作提取感受野的滑动窗口特征信息。整个过程可以简单地表示如下:
(公式3)
这里,卷积核 ( K ) 只代表一个参数值。如果将 ( A_i \times K ) 的值视为新的卷积核参数,有趣的是,这就解决了1×1卷积操作在特征提取中参数共享的问题。如图3所示,它可视化了1×1卷积核与空间注意力机制的结合。这个组合本质上解决了参数共享的问题。具体来说,通过将注意力权重 ( A_i ) 与卷积核参数 ( K ) 相乘得到的输出特征是不同的,且每个感受野的卷积参数不同,不再共享。
然而,与图1相比,当空间注意力机制插入到3×3卷积操作前时,效果有限。如前所述,如果将 ( A_i \times K ) 的值视为新的卷积核参数,公式(4)完全解决了大规模卷积核的参数共享问题。如图4所示,它表示输入特征通过空间注意力加权后再进行3×3卷积操作的过程。如果将与感受野滑动窗口对应的注意力权重与卷积核相乘的结果视为卷积参数,那么卷积参数共享的问题得到解决。
然而,最重要的一点是,卷积核在提取每个感受野滑动窗口的特征时会共享一些特征。换句话说,每个感受野滑动窗口内部会有重叠,当空间注意力加权时,注意力图的大小与输入特征相同,因此注意力权重在感受野滑动窗口中是共享的。
经过仔细分析会发现 ( A_{12} = A_{21} )、( A_{13} = A_{22} )、( A_{15} = A_{24} ) 等等。在这种情况下,空间注意力图的权重在每个滑动窗口之间是共享的。因此,空间注意力机制未能有效解决大规模卷积核的参数共享问题,因为它未能考虑整个感受野的空间特征。因此,空间注意力机制的有效性受到限制。
3.4 创新空间注意力与标准卷积操作
为了克服现有空间注意力机制的限制,RFA被提出,提供了一种创新的空间处理解决方案。受到RFA的启发,开发了一系列空间注意力机制,进一步增强了卷积神经网络的性能。RFA可以被视为一种轻量级的即插即用模块,由RFA设计的卷积操作(RFAConv)可以替代标准卷积以提升卷积神经网络的性能。
感受野空间特征: 为了更好地理解感受野空间特征的概念,我们将提供相关定义。感受野空间特征专为卷积核设计,并根据卷积核大小动态生成。如图5所示,以3×3卷积核为例。在图5中,“空间特征”指的是原始特征图。“感受野空间特征”是通过空间特征变换后的特征图,由非重叠的滑动窗口组成。感受野空间特征中的每个3×3大小的窗口代表一个感受野滑动窗口。
感受野注意力卷积(RFAConv):
针对感受野空间特征,我们提出了感受野注意力(RFA)。这种方法不仅强调感受野滑动窗口中不同特征的重要性,还优先考虑感受野空间特征。通过这种方法,卷积核参数共享的问题得以完全解决。感受野空间特征根据卷积核的大小动态生成,因此,RFA是一种与卷积紧密结合的固定组合,无法在没有卷积操作的帮助下分离。因此,我们提出了感受野注意力卷积(RFAConv)。图7展示了具有3×3卷积核的RFAConv的整体结构。作为深度学习领域的流行框架,Pytorch提供了Unfold方法来提取感受野空间特征。详细结构如图6所示,它提取3×3感受野空间特征。设输入 ( X \in \mathbb{R}^{C \times H \times W} ),经过Unfold方法后,其维度变为 ( 9C \times H \times W )。其中,( C )、( H ) 和 ( W ) 分别表示输入的通道数、高度和宽度。尽管Unfold能够通过无参数的方式提取感受野空间特征,但其速度较慢。因此,在RFAConv中,我们采用了一种快速方法来提取感受野空间特征,即组卷积(Group Conv)。如前所述,当使用3×3卷积核提取特征时,感受野空间特征中的每个3×3窗口代表一个感受野滑动窗口。然而,使用快速的Group Conv提取感受野空间特征后,原始特征被映射到新的特征。这种方法比原始的Unfold方法更快、更高效。如表1所示,基于YOLOv5n和VisDrone数据集的实验表明,基于GroupConv的RFAConv在训练300个epoch时比Unfold方法所需的训练时间更少,同时获得了良好的性能。此外,需要解释的是,Unfold方法是无参数的,而在表1中可以看到,基于GroupConv的方法所需的参数数量与Unfold方法相同,因为我们使用了一种轻量级的方法来在感受野中交互信息。
最近的研究表明,信息交互可以增强网络性能,如 [41, 42, 43] 所示。同样,对于RFAConv,通过交互感受野特征信息来学习注意力图可以增强网络性能。然而,与每个感受野特征进行交互会导致额外的计算开销,因此为了最小化计算开销和参数数量,使用AvgPool聚合每个感受野特征的全局信息。然后,使用1×1组卷积操作进行信息交互。最后,使用Softmax来强调感受野特征内每个特征的重要性。一般而言,RFA的计算可以表示为:
[
F = \text{Softmax}(g_{1 \times 1}(\text{AvgPool}(X))) \times \text{ReLU}(\text{Norm}(g_{k \times k}(X)))
= A_{\text{rf}} \times F_{\text{rf}}
]
(公式5)
这里,( g_{i \times i} ) 表示大小为 ( i \times i ) 的组卷积,( k ) 表示卷积核的大小,Norm 代表归一化,( X ) 表示输入特征图,( F ) 是通过将注意力图 ( A_{\text{rf}} ) 与变换后的感受野空间特征 ( F_{\text{rf}} ) 相乘得到的。与CBAM和CA不同,RFA能够为每个感受野特征生成注意力图。标准卷积操作由于依赖共享参数并且对位置信息带来的差异不敏感,限制了卷积神经网络的性能。然而,RFAConv通过强调感受野滑动窗口中不同特征的重要性和优先考虑感受野空间特征,完全解决了这个问题。通过“调整形状”后获得的特征图在感受野空间特征上不再重叠。因此,学习到的注意力图聚合了每个感受野滑动窗口的特征信息。换句话说,注意力图不再在每个感受野滑动窗口内共享。这完全弥补了现有CA和CBAM注意力机制的不足。RFA为标准卷积核带来了显著的好处。然而,在调整形状后,特征在高度和宽度上是 ( k ) 倍的,需使用步幅为 ( k \times k ) 的卷积操作来提取特征信息。由RFA设计的卷积操作RFAConv为卷积带来了良好的收益,并创新了标准卷积。
此外,我们断言,现有的空间注意力机制,如CBAM [17] 和 CA [18],应该优先考虑感受野空间特征以提升网络性能。众所周知,基于自注意力机制的网络模型 [44, 45, 46] 取得了巨大成功,因为它解决了卷积参数共享的问题并建模了长距离信息。然而,自注意力机制也给模型带来了显著的计算开销和复杂性。我们认为,通过将现有空间注意力机制的注意力指向感受野空间特征,可以以类似于自注意力的方式解决参数共享和长距离信息建模的问题。这种方法所需的参数和计算资源显著少于自注意力。我们的结论如下:
- 空间注意力机制与关注感受野空间特征的卷积结合,消除了卷积参数共享的问题。
- 当前的空间注意力机制已经通过全局平均池化或全局最大池化考虑了长距离信息,可以显式地获取全局信息。
因此,我们设计了新的CBAM和CA模型,称为RFCBAM和RFCA,它们关注感受野空间特征。与RFA类似,使用步幅为 ( k \times k ) 的最终卷积操作来提取特征信息。具体结构如图8所示,我们称这两种新的卷积操作为RFCBAMConv和RFCAConv。与原始CBAM相比,我们在RFCBAM中使用SE注意力替换了CAM,因为这可以减少计算开销。此外,在RFCBAM中,通道注意力和空间注意力不是分开进行的,而是同时加权,使每个通道获得不同的注意力图。
4 实验与讨论
为了验证我们方法的有效性,我们进行了分类、目标检测和语义分割实验。所有实验设备均基于RTX3090。在分类实验中,我们使用四个RTX3090并行训练模型。
4.1 ImageNet-1k上的分类实验
我们在ImageNet-1k上进行了实验以验证我们的方法,ImageNet-1k包含1281167个训练样本和50000个验证样本。类似于RFAConv,我们通过将CBAM和CA与附加的3×3卷积层结合,构建了CBAMConv和CAConv。我们还比较了使用通道注意力机制CAM [17] 构建的CAMConv。我们在ResNet18和ResNet34中进行评估。具体来说,RFAConv、CBAMConv、CAConv和CAMConv用于替换各自ResNet18和ResNet34中BasicBlock的第一个卷积层。总体上,新卷积的结构如表2所示。
表2. ResNet18和ResNet34通过新卷积操作构建。
层名称 | 输出大小 | ResNet18 | ResNet34 |
---|---|---|---|
Conv1 | 112 × 112 | ||
Layer1 | 56 × 56 | [NewConv 3 × 3 Conv 3 × 3] × 2 | [NewConv 3 × 3 Conv 3 × 3] × 3 |
Layer2 | 28 × 28 | [NewConv 3 × 3 Conv 3 × 3] × 2 | [NewConv 3 × 3 Conv 3 × 3] × 4 |
Layer3 | 14 × 14 | [NewConv 3 × 3 Conv 3 × 3] × 2 | [NewConv 3 × 3 Conv 3 × 3] × 6 |
Layer4 | 7 × 7 | [NewConv 3 × 3 Conv 3 × 3] × 2 | [NewConv 3 × 3 Conv 3 × 3] × 3 |
1 × 1 AvgPool | 1000-d |
表2展示了通过注意力机制构建的不同卷积操作在ResNet18和ResNet34中的结构。
在图像分类实验中,我们对每个模型进行了100个epoch的训练,批量大小为128。学习率从0.1开始,每30个epoch下降0.1倍。在实验中,我们遵循大多数前期工作,并分别报告TOP1和TOP5的准确率。表3展示了不同网络在ImageNet-1K验证集上的结果。显然,用RFAConv替换3×3卷积操作显著提高了识别结果。与基线模型ResNet18和ResNet34相比,基于RFAConv构建的网络在仅增加少量参数和计算开销的情况下,在TOP1和TOP5上分别提高了1.64%和1.24%的准确率。
此外,如前所述,空间注意力可以通过关注感受野空间特征进一步增强。因此,我们设计了RFCBAMConv和RFCAConv,这是CBAM和CA的改进版本。为了验证它们的优势,我们在ResNet18上进行了实验,并在表4中报告了相关数据。显然,RFCBAMConv和RFCAConv在分类准确率上优于表3中的CBAMConv和CAConv。最重要的是,它们在仅增加少量参数和计算开销的情况下显著提高了性能。这强烈表明,通过将注意力放置在感受野空间特征中,空间注意力可以得到改进。这充分展示了通过将注意力放置在感受野空间特征中,可以改进空间注意力。
表3. 使用ResNet18和ResNet34在ImageNet-1K上的分类结果。比较了由注意力机制构建的不同卷积操作。
模型 | FLOPS(G) | 参数(M) | Top1(%) | Top5(%) |
---|---|---|---|---|
ResNet18 | 1.82 | 11.69 | 69.59 | 89.05 |
+ CAMConv® | 1.83 | 11.75 | 70.76 | 89.74 |
+ CBAMConv® | 1.83 | 11.75 | 69.38 | 89.12 |
+ CAConv® | 1.83 | 11.74 | 70.58 | 89.59 |
+ RFAConv® | 1.91 | 11.85 | 71.23 | 90.29 |
ResNet34 | 3.68 | 21.80 | 73.33 | 91.37 |
+ CAMConv® | 3.68 | 21.93 | 74.03 | 91.69 |
+ CBAMConv® | 3.68 | 21.93 | 72.95 | 91.26 |
+ CAConv® | 3.68 | 21.91 | 73.76 | 91.68 |
+ RFAConv® | 3.84 | 22.16 | 74.25 | 92.03 |
表4. RFCBAMConv和RFCAConv提升了CBAMConv和CAConv的性能。该表显示在ImageNet-1k上的分类准确率显著提高。
模型 | FLOPS(G) | 参数(M) | Top1(%) | Top5(%) |
---|---|---|---|---|
ResNet18 | 1.82 | 11.69 | 69.59 | 89.05 |
+ RFCBAMConv® | 1.90 | 11.88 | 72.15 | 90.71 |
+ RFCAConv® | 1.92 | 11.89 | 72.01 | 90.64 |
所有分类实验清楚地表明了我们方法的显著优势,因为RFAConv、RFCBAMConv和RFCAConv完全解决了卷积核参数共享的问题。此外,值得注意的是,RFCBAMConv和RFCAConv优于RFAConv,因为它们不仅解决了卷积核参数共享的问题,还通过全局池化考虑了长距离信息。
此外,为了提供更直观的分析,像大多数工作一样,我们使用Grad-CAM [47] 算法进行可视化。Grad-CAM通过基于梯度的定位突出显示不同网络对于特定类别物体的兴趣区域。在一定程度上,可以看出网络如何利用特征。我们随机选择ImageNet-1k验证集中的一些图像,并分别可视化了基于ResNet18构建的不同注意力卷积网络的结果。如图9所示,与其他注意力卷积相比,RFAConv可以帮助网络更好地识别和突出物体的关键区域。
我们还使用Grad-CAM对通过CBAMConv、RFCBAMConv、CAConv和RFCAConv构建的ResNet18进行了可视化。RFCBAM是通过将CBAM的注意力放入感受野空间特征后获得的。同样,RFCA是通过相同方法改进后的CA。如图10所示,经过改进的RFCA和RFCBAM结合卷积操作后,可以帮助网络更好地识别和突出物体的关键区域。
4.2 COCO2017上的目标检测实验
我们在COCO2017上进行了目标检测实验,以重新评估我们的方法。COCO2017包含118287个训练样本和5000个验证样本。我们选择YOLOv5n、YOLOv7-tiny和YOLOv8n模型进行一系列实验。除了epoch和batch-size外,所有参数均设置为默认值。我们训练每个模型300个epoch,批量大小为32。为了与分类实验相似,我们使用注意力卷积替换了基线模型中的一些卷积操作。具体来说,我们在YOLOv5和YOLOv8的yaml文件中使用注意力卷积替换所有3×3卷积操作。而对于YOLOv7,我们替换了所有ELAN [34] 中的第一个3×3卷积操作。按照之前的工作,我们分别报告AP50、AP75、AP、APS、APM和APL。此外,为了更好地展示不同网络的性能,我们选择了YOLOv5n的训练过程进行可视化。我们可视化了AP50随迭代次数的变化情况。实验结果如表5和图11所示。
当使用RFAConv替换一些卷积时,网络在仅增加少量参数和计算开销的情况下,实现了显著改进的检测结果。与其他注意力相比,RFA仍然为检测网络带来了相当大的好处。在某些实验中,我们再次验证了RFCA的有效性,RFCA比原始CA表现出更好的卷积操作性能。Time表示在验证期间处理一张图像所花费的总时间。可以清楚地看到,采用新型卷积操作构建的模型在处理图像时的时间有所增加。因此,如果追求实时性,替换的卷积数量不应过多。
表5. 在COCO2017验证集上的目标检测AP50、AP75、AP、APS、APM和APL。我们采用YOLOv5n、YOLOv7-tiny和YOLOv8n检测框架,并使用注意力机制构建的新型卷积操作替换原始卷积。
模型 | FLOPS(G) | 参数(M) | AP50(%) | AP75(%) | AP(%) | APS(%) | APM(%) | APL(%) | Time(ms) |
---|---|---|---|---|---|---|---|---|---|
YOLOv5n | 4.5 | 1.8 | 45.6 | 28.9 | 27.5 | 13.5 | 31.5 | 35.9 | 4.4 |
+ CAMConv® | 4.5 | 1.8 | 45.6 | 28.3 | 27.4 | 13.8 | 31.4 | 35.8 | 5.2 |
+ CBAMConv® | 4.5 | 1.8 | 45.5 | 28.6 | 27.6 | 13.6 | 31.2 | 36.6 | 5.4 |
+ CAConv® | 4.5 | 1.8 | 46.2 | 29.2 | 28.1 | 14.3 | 32 | 36.6 | 4.8 |
+ RFAConv® | 4.7 | 1.9 | 47.3 | 30.6 | 29 | 14.8 | 33.4 | 37.4 | 5.3 |
YOLOv7-tiny | 13.7 | 6.2 | 53.8 | 38.3 | 35.9 | 19.9 | 39.4 | 48.8 | 6.8 |
+ RFAConv® | 14.1 | 6.3 | 55.1 | 40.1 | 37.1 | 20.9 | 41.1 | 50 | 8.4 |
YOLOv8n | 8.7 | 3.1 | 51.9 | 39.7 | 36.4 | 18.4 | 40.1 | 52 | 4.2 |
+ CAMConv® | 8.8 | 3.1 | 51.6 | 39 | 36.2 | 18 | 39.9 | 51.2 | 4.5 |
+ CBAMConv® | 8.8 | 3.1 | 51.5 | 39.6 | 36.3 | 18.3 | 40.1 | 51.5 | 4.6 |
+ CAConv® | 8.8 | 3.1 | 52.1 | 39.9 | 36.7 | 17.8 | 40.3 | 51.6 | 4.3 |
+ RFAConv® | 9.0 | 3.2 | 53.4 | 41.1 | 37.7 | 18.9 | 41.8 | 52.7 | 4.5 |
+ RFCAConv® | 9.1 | 3.2 | 53.9 | 41.7 | 38.2 | 19.7 | 42.3 | 53.5 | 4.7 |
图11. 使用不同注意力卷积构建的YOLOv5n在训练过程中的AP50变化。
4.3 VOC7+12上的目标检测实验
为了再次验证我们的方法,我们选择了VOC7+12数据集进行实验。VOC7+12是VOC2007和VOC2012的混合,共有16551个训练样本和4952个验证样本。类似于在COCO2017上的实验,我们在先进的检测模型如YOLOv5n、YOLOv5s、YOLOv7-tiny和YOLOv8n上进行了实验。所有超参数设置和网络结构与前一节相同。
按照大多数工作的做法,我们也报告了mAP。如下表6所示。如之前的结论所述,在所有实验中,当我们使用RFAConv替换网络中的一些卷积操作时,网络在仅增加少量参数和计算开销的情况下获得了显著的提升。同时,RFA在某些实验中相较于其他注意力取得了优异的性能。此外,在一些实验中,我们同样使用RFCBAMConv和RFCAConv构建的网络进行了实验。结果再次验证了它们的优势。与CBAMConv和CAConv相比,它们仍然取得了更好的结果。
表6. 在VOC7+12验证集上的目标检测mAP50和mAP。我们采用YOLOv5n、YOLOv5s、YOLOv7-tiny和YOLOv8n检测框架,并使用注意力机制构建的新型卷积操作替换原始卷积。
模型 | FLOPS(G) | 参数(M) | mAP(%) | Time(ms) |
---|---|---|---|---|
YOLOv5n | 4.2 | 1.7 | 41.5 | 2.7 |
+ CAMConv® | 4.2 | 1.7 | 41.4 | 2.9 |
+ CBAMConv® | 4.3 | 1.7 | 41.9 | 3 |
+ CAConv® | 4.3 | 1.7 | 42.4 | 3 |
+ RFAConv® | 4.5 | 1.8 | 43.3 | 3 |
YOLOv5s | 15.9 | 7.1 | 48.9 | 3 |
+ CAMConv® | 16 | 7.1 | 48.5 | 3.5 |
+ CBAMConv® | 16 | 7.1 | 49 | 3.7 |
+ CAConv® | 16.1 | 7.1 | 49.6 | 3.1 |
+ RFAConv® | 16.4 | 7.2 | 50 | 5.1 |
+ RFCBAMConv® | 16.4 | 7.2 | 50.1 | 3.9 |
+ RFCAConv® | 16.6 | 7.2 | 51 | 4.4 |
YOLOv7-tiny | 13.2 | 6.1 | 50.2 | 5 |
+ CAMConv® | 13.2 | 6.1 | 50.3 | 5.4 |
+ CBAMConv® | 13.2 | 6.1 | 50.1 | 5.4 |
+ CAConv® | 13.2 | 6.1 | 50.5 | 5.4 |
+ RFAConv® | 13.6 | 6.1 | 50.6 | 7.5 |
YOLOv8n | 8.1 | 3 | 53.5 | 3 |
+ CAMConv® | 8.1 | 3 | 52.8 | 3.1 |
+ CBAMConv® | 8.2 | 3 | 53.3 | 3.1 |
+ CAConv® | 8.2 | 3 | 53.8 | 2.9 |
+ RFAConv® | 8.4 | 3.1 | 54 | 3.2 |
4.4 VOC2012上的语义分割实验
为了再次验证我们方法的优势,我们在VOC2012数据集上进行了语义分割实验,选择了DeepLabPlusV3 [48] 和ResNet18作为骨干网络进行相关实验。每个骨干网络的预训练权重来自ImageNet-1k实验。我们报告了两种不同步幅(8和16)的输出结果。在实验中,我们发现由RFAConv构建的语义分割网络比原始模型获得了更好的结果,但相比于CAConv、CAMConv,RFAConv的性能不佳。经过思考,我们断言,RFAConv缺乏对长距离信息的考虑,而语义分割任务依赖于长距离信息。CAConv、CAMConv和CBAMConv通过全局平均池化捕捉长距离信息。尽管CBAMConv在语义分割中表现不佳,但改进后的RFCBAM获得了良好的性能。这再次证明,通过我们的方式,将空间注意力放置在感受野空间特征中,可以进一步提升网络性能。
表7. 比较不同新型卷积操作在DeepLabPlusV3上的实验结果。
Backbone | Stride | MIOU(%) |
---|---|---|
ResNet18 | 8 | 58.9 |
+ CAMConv® | 8 | 60.9 |
+ CBAMConv® | 8 | 59.3 |
+ CAConv® | 8 | 62.1 |
+ RFAConv® | 8 | 60.8 |
+ RFCBAMConv® | 8 | 62.1 |
+ RFCAConv® | 8 | 63.9 |
ResNet18 | 16 | 64.6 |
+ CAMConv® | 16 | 65.5 |
+ CBAMConv® | 16 | 63.6 |
+ CAConv® | 16 | 66.6 |
+ RFAConv® | 16 | 65.4 |
+ RFCBAMConv® | 16 | 67.7 |
+ RFCAConv® | 16 | 68.0 |
表7展示了不同新型卷积操作在DeepLabPlusV3上的实验结果。
4.5 讨论
所有实验表明,RFAConv作为标准卷积的替代方案,在分类、目标检测和语义分割等视觉任务上带来了显著的提升,且仅增加了少量的参数和计算开销。如图9和图10中的分类可视化所示,基于RFAConv构建的网络能够更好地聚焦于重要信息和特征。这是因为RFA考虑了感受野空间特征,并能够突出感受野滑动窗口中每个特征的重要性,同时将其与卷积结合,转变为非参数共享的卷积操作。此外,如前所述,通过将CA和CBAM的注意力放置在感受野空间特征中,性能可以再次得到提升。因此,我们设计了RFCBAMConv和RFCAConv,通过将注意力放置在感受野空间特征中,显著提升了网络性能。
显而易见,RFAConv在语义分割任务中虽然具有优势,但并不突出。我们认为,这是因为RFA的设计未考虑长距离信息,而语义分割任务依赖于长距离信息。相比之下,RFCBAM和RFCA通过全局池化考虑了长距离信息,因此在所有视觉任务中都取得了出色的性能。通过仔细分析RFAConv、RFCBAMConv和RFCAConv,我们的任务可以将一些现有的空间注意力放置到感受野中以增强其性能。
5 结论
通过分析标准卷积和空间注意力,我们得出结论,空间注意力机制解决了参数共享问题,并具有考虑长距离信息的优势。然而,空间注意力机制在处理大尺寸卷积核时的性能受到限制。为了解决这个问题,我们提出了一种新颖的注意力机制,称为RFA,并设计了一种新型卷积操作,进一步提升了网络性能。我们还强调了将注意力指向感受野空间特征以增强网络性能的重要性。通过大量实验,我们证明了我们方法的有效性和先进性。展望未来,我们希望越来越多的空间注意力机制能够采用我们提出的方法,以进一步提升性能,并希望新型卷积方法能够被广泛采用以增强网络性能。
写在最后
学术因方向、个人实验和写作能力以及具体创新内容的不同而无法做到一通百通,所以本文作者即B站Up主:Ai学术叫叫兽
在所有B站资料中留下联系方式以便在科研之余为家人们答疑解惑,本up主获得过国奖,发表多篇SCI,擅长目标检测领域,拥有多项竞赛经历,拥有软件著作权,核心期刊等经历。因为经历过所以更懂小白的痛苦!因为经历过所以更具有指向性的指导!
祝所有科研工作者都能够在自己的领域上更上一层楼!!!