YOLOv11全网最新创新点改进系列:Cvpr2024最新改进-MEEM的多尺度细节增强与YOLOv11融合,实现极速、高精度的显著物体检测,以毫秒级的速度捕捉每一处关键细节,有效涨点!!

YOLOv11全网最新创新点改进系列:Cvpr2024最新改进-MEEM的多尺度细节增强与YOLOv11融合,实现极速、高精度的显著物体检测,以毫秒级的速度捕捉每一处关键细节,有效涨点!!

所有改进代码均经过实验测试跑通!截止发稿时YOLOv11已改进40+!自己排列组合2-4种后,考虑位置不同后可排列组合上千万种!改进不重样!!专注AI学术,关注B站up主:Ai学术叫叫兽!

购买相关资料后畅享一对一答疑

多尺度与细节增强的“Segment Anything”模型在显著物体检测中的应用

作者:
Shixuan Gao(大连理工大学, 中国)
Pingping Zhang(大连理工大学, 中国)
Tianyu Yan(大连理工大学, 中国)
Huchuan Lu(大连理工大学, 中国)

摘要

显著物体检测(SOD)旨在识别并分割图像中最显著的物体。先进的SOD方法通常采用各种卷积神经网络(CNN)或变换器(Transformer)进行深度特征提取。然而,在复杂场景中,这些方法依然存在低性能和泛化差的问题。最近,提出了“Segment Anything Model”(SAM)作为一种视觉基础模型,具有强大的分割和泛化能力。然而,SAM需要针对目标物体提供准确的提示,这在SOD任务中不可用。此外,SAM未能充分利用多尺度、多层级信息,也没有结合细粒度的细节。为了解决这些问题,我们提出了一个“多尺度与细节增强的SAM”(MDSAM)框架用于SOD。具体来说,我们首先引入了轻量级多尺度适配器(LMSA),使SAM能够以极少的可训练参数学习多尺度信息。然后,我们提出了多层次融合模块(MLFM),以全面利用SAM编码器中的多层级信息。最后,我们提出了细节增强模块(DEM),将细粒度细节融入SAM中。实验结果表明,我们的方法在多个SOD数据集上表现优异,并在其他分割任务上展现了强大的泛化能力。代码已发布在GitHub

CCS概念

  • 计算方法 → 兴趣点和显著区域检测。

关键词

显著物体检测、Segment Anything Model、 多尺度特征提取、物体细节增强


1. 引言

显著物体检测(SOD)旨在识别和分割图像中最显著的物体。作为一项基础任务,SOD在许多下游任务中起着重要作用,如物体追踪[68, 75]、场景分割[51, 69]、人员重识别[13, 41]等。过去十年,卷积神经网络(CNN)在SOD中取得了显著进展。然而,SOD需要全局上下文信息,这对CNN来说是一个挑战,因为它们的感受野有限。幸运的是,通过自注意力机制的全球感知,视觉变换器(ViT)[8]极大地促进了SOD任务的发展。然而,由于训练样本不足以及域间差距较大,这些SOD方法在复杂场景下仍然表现不佳,泛化能力较差。

最近,提出了一种名为Segment Anything Model(SAM)[23]的视觉基础模型,具有强大的泛化能力和良好的分割效果,得益于超过10亿的训练样本。然而,为了实现鲁棒的分割,SAM需要针对目标物体提供精确的提示,如点、框或粗略的掩码。正如图1(a)所示,SAM使用网格提示可以自动生成物体掩码,但这些掩码是类无关的,无法识别显著物体。如图1(b)所示,点提示需要精确的点数量和位置,稍微的差异就可能导致错误的结果。同时,在一些具有挑战性的场景(如物体遮挡)中,框提示可能会失效。因此,将SAM应用于SOD任务需要为显著物体选择精确的提示,这在SOD任务中是不可行的,因为推理时无法获取地面真值。事实上,完全微调是将SAM适应到SOD的直接方法,但可能会导致巨大的训练参数,甚至性能下降。此前的研究已经使用适配器[18]将基础模型迁移到下游任务。然而,正如图1(d)所示,使用适配器微调的SAM在多尺度场景中的表现较差。此外,SAM仅利用图像编码器最后一层的特征,导致低层信息丢失。如图1(d)和(f)所示,SAM由于缺乏多尺度信息和细粒度细节,导致物体掩码不完整,物体边缘不准确。
在这里插入图片描述

为了克服上述问题,我们提出了一种新的框架,称为多尺度与细节增强的SAM(MDSAM),用于高性能的显著物体检测。功能上,MDSAM将SAM适配到SOD任务,并通过多尺度和细节增强的信息改善其性能。具体来说,我们首先提出了一个轻量级的多尺度适配器(LMSA),使SAM能够以非常少的可训练参数学习多尺度信息。然后,我们提出了多层次融合模块(MLFM),以全面利用SAM编码器中的多层次信息。最后,我们提出了细节增强模块(DEM),通过融入细粒度细节,帮助生成精准的分割结果。广泛的实验结果证明了我们模型在多个SOD数据集上的优越性能以及在其他分割任务上的强大泛化能力。

我们的主要贡献总结如下:

  • 提出了一个名为MDSAM的新的框架,用于高性能的显著物体检测。
  • 提出了轻量级多尺度适配器(LMSA),使SAM能够适应SOD任务,并且训练效率高,泛化能力强。
  • 提出了多层次融合模块(MLFM)和细节增强模块(DEM),分别提升了SAM的多尺度和细粒度感知能力。
  • 通过广泛的实验验证了我们方法的优越性以及强大的泛化能力,在多个SOD数据集和其他分割任务中均取得了优异的效果。

2. 相关工作

2.1 显著物体检测(SOD)

当前的SOD方法大体可以分为两类:基于CNN的方法和基于Transformer的方法。基于CNN的方法通常使用VGGNet [43]、ResNet [15]等深度CNN作为骨干网络来提取和融合多尺度特征。例如,Zhang等人[70]提出通过聚合多层卷积特征来进行SOD。Zhang等人[71]提出通过学习不确定的卷积特征来精确进行SOD。Wang等人[49]提出了一种阶段性精炼的CNN模型用于检测图像中的显著物体。此外,Zhang等人[67]利用Siamese网络学习无损特征反射进行结构化SOD。尽管这些方法在SOD中取得了重要进展,但由于CNN本质上缺乏全局感知,因此它们在SOD任务中仍然表现不佳。

近年来,ViT[8]通过自注意力机制提供全局感知,展现了在SOD任务中的卓越效果。为充分利用ViT的优势,Liu等人[31]使用T2T-ViT[62]来捕捉长程依赖并融合多层特征,从而获得更好的SOD结果。Yun等人[63]提出了一种自我精炼网络,通过金字塔Transformer来增强显著物体的全局语义信息和局部细节信息。Zhuge等人[78]利用Swin Transformer[32]来提取多尺度特征并增强显著区域的完整性。尽管这些基于Transformer的方法取得了令人印象深刻的性能,但它们在物体细节的细粒度感知方面依然存在不足。此外,这些方法在复杂场景中的泛化能力较差。本文借鉴了视觉基础模型在特征提取和泛化能力方面的优势,并将其迁移到SOD任务中以提升性能。


3. 我们提出的方法

在本工作中,我们提出了一种新型的多尺度与细节增强的SAM(MDSAM)框架,用于显著物体检测任务。图2展示了我们方法的整体架构,MDSAM通过引入三个新的模块来增强SAM:轻量级多尺度适配器(LMSA)、多层次融合模块(MLFM)和细节增强模块(DEM)。接下来的部分将详细描述这些模块。
在这里插入图片描述

3.1 轻量级多尺度适配器(LMSA)

尽管SAM在许多分割任务中表现出色,但其应用仍受到合适提示的限制。一个可行的解决方案是对SAM进行完全微调。然而,由于SAM编码器的训练参数过多以及SOD数据集不足,可能导致性能不佳。幸运的是,适配器(Adapter)[18]是一种有效的方法,可以以较少的训练参数将SAM适配到SOD任务中。另外,多尺度信息对于SOD非常有帮助。因此,我们提出了轻量级多尺度适配器(LMSA),以很少的训练参数适配SAM并帮助它提取多尺度信息。据我们所知,我们是首次应用多尺度适配器将SAM迁移到下游任务中。通过增强提取局部信息的能力,我们进一步改进了LMSA。

图3展示了LMSA的详细结构。具体来说,我们在每个Transformer层的第一个归一化层之前引入LMSA。通过减少特征维度并利用池化层获取多尺度特征,LMSA增强了SAM对不同尺度信息的处理能力。我们使用深度卷积层(Depth-wise Convolution)来捕获局部细节信息,并通过上采样恢复多尺度特征,最终将其与SAM编码器的输出特征融合,生成多尺度的特征表示。
在这里插入图片描述
在这里插入图片描述

3.2 多层次融合模块(MLFM)

在SAM的编码器中,每一层包含不同类型的信息:浅层包含更多低级的细节信息,而深层则包含更丰富的高级语义信息。在SOD任务中,仅依赖深层的高层信息可能导致在复杂场景下物体定位不准确。因此,利用多层次的信息是SOD中不可或缺的部分。然而,SAM只利用编码器最后一层的输出作为掩码解码器的输入,而简单的拼接融合方法无法充分整合不同层次的信息。

为了解决这个问题,我们提出了多层次融合模块(MLFM),该模块通过权重分配机制有效融合来自SAM编码器不同层的特征。我们首先将来自不同层(例如第3层、第6层、第9层和第12层)的特征进行拼接,并通过卷积层对拼接特征进行处理,得到融合后的特征表示。接着,我们使用全局平均池化(GAP)和Sigmoid函数生成不同层的权重,并根据这些权重对各层的特征进行加权,从而得到最终融合的特征。

通过MLFM,我们不仅融合了不同层的信息,还提升了模型对多层次特征的感知能力,使其能够更好地识别显著物体的形状和轮廓。

3.3 细节增强模块(DEM)

虽然LMSA和MLFM增强了SAM的多尺度和多层次信息,但SAM的编码器仍然采用图像块嵌入策略,导致细节信息的丢失。此外,SAM的解码器中的上采样策略也无法恢复细节信息,尤其是物体的复杂细节和边缘。为了弥补这些不足,我们提出了细节增强模块(DEM),用于提升SAM在SOD中的细粒度细节和边缘感知能力。

如图5所示,DEM包含主分支和辅助分支。主分支负责逐步上采样掩码解码器的输出特征,将其还原到输入图像的分辨率。辅助分支则从输入图像中提取细粒度的细节信息,并将其与主分支中的特征进行融合。为了避免直接在输入分辨率上提取细节导致计算量过大,我们引入了一个多尺度边缘增强模块(MEEM)。MEEM通过3×3的平均池化和1×1卷积来提取细节信息,同时使用边缘增强模块(Edge Enhancer)来突出物体边缘。
在这里插入图片描述

主分支通过卷积层和上采样逐步恢复细节,而辅助分支则通过MEEM提取图像中的细节和边缘信息,并将其与主分支的特征融合。最终,我们将这些特征传递给后续的卷积层,以获得更精确的SOD结果。

3.4 损失函数

为了训练我们的框架,我们引入了二元交叉熵(BCE)损失、交并比(IoU)损失和L1损失。通过将这些损失函数应用于最终的显著物体分割结果(S_f)和生成的掩码(S_m),我们可以有效地优化模型。总的损失函数如下所示:
在这里插入图片描述

4. 实验

4.1 实验设置
  • 数据集:为了公平比较,我们在DUTS-TR数据集(10533张图像)上训练模型,并在五个SOD基准数据集上进行评估,包括DUTS-TE(5019张图像)、DUTS-OMRON(5168张图像)、HKU-IS(4447张图像)、ECSSD(1000张图像)和PASCAL-S(850张图像)。

  • 评估指标:我们采用四个广泛使用的评估指标来评价SOD的性能:均值绝对误差(MAE)、最大F值(( F_{max} ))、S-Measure(Sm)和均值增强对齐度量(Em)。

  • 实现细节:我们使用PyTorch框架进行实验,利用NVIDIA A100 GPU进行训练。初始化时,我们加载SAM的图像编码器和掩码解码器的预训练权重,其余部分采用随机初始化。我们将输入图像的分辨率调整为512×512和384×384,批量大小分别设置为16和32。训练过程中,我们冻结SAM的编码器,且对其余部分的学习率设为5e-5,对提出的模块的学习率设为5e-4。训练最多进行80个周期,且使用5个周期的预热。
    在这里插入图片描述

4.2 与现有方法的比较

我们将提出的MDSAM与其他15个模型进行比较,包括CPD[56]、F3Net[54]、CAGNet[37]、DFI[29]、GateNet[74]等。比较结果表明,MDSAM在多个数据集上表现出色,尤其在DUTS-OMRON、HKU-IS和ECSSD上,表现最为突出。
在这里插入图片描述
在这里插入图片描述

4.3 消融实验

为了验证我们提出的模块的有效性,我们进行了消融实验。实验结果表明,LMSA显著提升了模型对多尺度信息的利用,MLFM有效融合了来自不同层的特征,而DEM在细节增强方面起到了关键作用。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


5. 结论

本文提出了一种新的框架MDSAM,旨在提升SAM在显著物体检测任务中的表现。通过引入轻量级多尺度适配器(LMSA)、多层次融合模块(MLFM)和细节增强模块(DEM),我们有效地解决了SAM在多尺度信息提取和细粒度细节感知上的不足。广泛的实验验证了该方法的有效性和强泛化能力。


写在最后

学术因方向、个人实验和写作能力以及具体创新内容的不同而无法做到一通百通,所以本文作者即B站Up主:Ai学术叫叫兽
在所有B站资料中留下联系方式以便在科研之余为家人们答疑解惑,本up主获得过国奖,发表多篇SCI,擅长目标检测领域,拥有多项竞赛经历,拥有软件著作权,核心期刊等经历。因为经历过所以更懂小白的痛苦!因为经历过所以更具有指向性的指导!

祝所有科研工作者都能够在自己的领域上更上一层楼!!!

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 源码在动态中有链接,感谢支持!祝科研遥遥领先!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值