YOLOv11全网最新创新点改进系列:将IGAB(低光照增强)与 YOLO 结合,突破低光图像增强与实时物体检测的极限,精准识别,清晰呈现,助力夜间视觉智能,可广泛应用于目标检测各领域,涨点神器!
所有改进代码均经过实验测试跑通!截止发稿时YOLOv11已改进50+!自己排列组合2-4种后,考虑位置不同后可排列组合上千万种!改进不重样!!专注AI学术,关注B站up主:Ai学术叫叫兽!
购买相关资料后畅享一对一答疑!
Retinexformer:一种基于 Retinex 理论的 Transformer 一阶段低光图像增强方法
摘要:
在低光图像增强中,许多深度学习算法基于 Retinex 理论。然而,Retinex 模型没有考虑到隐藏在黑暗中或通过亮化过程引入的图像退化。此外,这些方法通常需要繁琐的多阶段训练流程,并且依赖于卷积神经网络(CNN),这使得它们在捕捉长程依赖关系时表现出局限性。在本文中,我们提出了一种简单而有原则的一阶段 Retinex 框架(ORF)。ORF 首先估计照明信息,以亮化低光图像,然后恢复图像中的退化部分,最终生成增强后的图像。我们设计了一种照明引导的 Transformer(IGT),利用照明表示来引导不同光照条件下区域间的非局部交互建模。通过将 IGT 插入到 ORF 中,我们得到了 Retinexformer。综合的定量和定性实验表明,Retinexformer 在十三个基准测试中显著超过了最先进的其他方法。用户研究和低光物体检测应用也揭示了我们方法的潜在实际价值。
1. 引言
低光图像增强是计算机视觉中的一个重要且具有挑战性的任务。其目的是改善低光图像的可见度和对比度,并恢复黑暗中隐藏或亮化过程中引入的退化(如噪声、伪影、色彩失真等)。这些问题不仅对人眼的视觉感知构成挑战,还影响到其他视觉任务,例如夜间物体检测。因此,许多低光图像增强算法应运而生。然而,现有算法也存在各自的缺点。简单的方法如直方图均衡化和伽马校正往往会产生不希望看到的伪影,因为它们几乎没有考虑照明因素。传统的认知方法依赖于 Retinex 理论,该理论假设彩色图像可以分解为反射率和照明两个部分。与简单的方法不同,传统方法关注于照明估计,但通常会引入严重的噪声或局部的色彩失真,因为这些方法假设图像没有噪声和色彩失真,这与现实中的曝光不足场景并不一致。
随着深度学习的发展,卷积神经网络(CNN)已经广泛应用于低光图像增强。这些基于 CNN 的方法主要分为两类。第一类方法直接使用 CNN 来学习从低光图像到正常光照图像的映射函数,从而忽略了人类的颜色感知。这类方法缺乏可解释性和理论上的证明。第二类方法受 Retinex 理论启发,通常需要经过繁琐的多阶段训练流程。这些方法使用不同的 CNN 来分解彩色图像、去噪反射率和调整照明,然后将这些网络独立训练后连接在一起进行端到端的微调。训练过程繁琐且时间消耗大。此外,这些基于 CNN 的方法在捕捉不同区域之间的长程依赖和非局部相似性方面表现出局限性,而这些因素对于图像恢复是至关重要的。
最近崛起的深度学习模型 Transformer 可能为解决 CNN 方法的这些缺点提供了可能性。然而,直接将原始视觉 Transformer 应用于低光图像增强时,可能会遇到一个问题,即其计算复杂度与输入的空间大小成二次方关系,这可能导致计算开销过大。为了解决这个问题,一些 CNN-Transformer 混合算法如 SNR-Net [57] 只在 U 型 CNN 的最低空间分辨率处使用一个全局 Transformer 层。因此,Transformer 在低光图像增强中的潜力仍然未被充分挖掘。
为了解决上述问题,我们提出了一种新的方法——Retinexformer,用于低光图像增强。首先,我们提出了一个简单而有原则的一阶段 Retinex 框架(ORF)。我们通过引入扰动项来修正原始 Retinex 模型,从而更好地建模图像中的退化部分。ORF 估计照明信息,并用其亮化低光图像。接着,ORF 采用退化恢复器来抑制噪声、伪影、曝光不足/过度曝光以及色彩失真。与以前那些需要多阶段训练流程的 Retinex 基于深度学习框架不同,我们的 ORF 采用一阶段训练流程。其次,我们提出了照明引导的 Transformer(IGT),用于建模长程依赖。IGT 的核心组件是照明引导的多头自注意力机制(IG-MSA)。IG-MSA 利用照明表示来指导自注意力的计算,并增强不同曝光级别区域之间的交互作用。最后,我们将 IGT 插入到 ORF 中作为退化恢复器,得到我们的算法——Retinexformer。正如图 1 所示,Retinexformer 在多个数据集上大幅超越了最先进的 Retinex 基于深度学习的方法,尤其在 SID [9]、SDSD [48]-室内和 LOL-v2 [59]-合成数据集上,改进超过了 6 dB。
我们的贡献可以总结如下:
- 我们提出了第一个基于 Transformer 的低光图像增强算法 Retinexformer。
- 我们提出了一个一阶段的 Retinex 低光增强框架(ORF),该框架具有简单的一阶段训练流程,并能够有效建模图像中的退化部分。
- 我们设计了一种新的自注意力机制 IG-MSA,利用照明信息作为关键线索来引导长程依赖建模。
- 定量和定性实验表明,Retinexformer 在十三个数据集上超越了最先进的方法。用户研究和低光检测结果也证明了我们方法的实际应用价值。
2. 相关工作
2.1 低光图像增强
-
简单方法:如直方图均衡化 [1, 8, 12, 40, 41] 和伽马校正(GC)[19, 42, 53],直接放大低可见度和对比度的低光图像。然而,这些方法几乎不考虑照明因素,使得增强后的图像在感知上与真实的正常光照场景不一致。
-
传统认知方法:不同于简单算法,传统方法 [15, 23, 24, 29, 50] 考虑了照明因素。它们依赖 Retinex 理论,将低光图像的反射率部分视为增强结果的合理解决方案。然而,这些方法过于简单,假设低光图像没有退化,从而在增强时会引入噪声和色彩失真,并依赖手工设定的先验,通常需要精细的参数调节,并且容易泛化差。
-
深度学习方法:随着深度学习的迅速发展,CNN [16, 17, 22, 33, 35, 38, 45, 49, 61, 66, 68] 被广泛应用于低光图像增强。例如,Wei 等 [54] 和后续工作 [65, 66] 将 Retinex 分解与深度学习结合。然而,这些方法通常需要多阶段的训练流程,多个 CNN 网络分别学习或调整 Retinex 模型的不同部分。Wang 等 [49] 提出了一个一阶段的 Retinex 基于 CNN 的方法 DeepUPE,直接预测照明图。然而,DeepUPE 没有考虑退化因素,导致在亮化低光图像时会放大噪声和色彩失真。此外,这些基于 CNN 的方法也在捕捉不同区域之间的长程依赖关系上存在局限性。
2.2 视觉 Transformer
自然语言处理模型 Transformer [46] 最早被提出用于机器翻译。近年来,Transformer 及其变种已被应用于许多计算机视觉任务,并在高层视觉(如图像分类 [2, 4, 14]、语义分割 [7, 55, 67]、目标检测 [3, 13, 62])和低层视觉(如图像恢复 [6, 11, 60]、图像合成 [20, 21, 64])中取得了显著成果。例如,Xu 等 [57] 提出了一个基于 CNN-Transformer 混合网络的 SNR-Net 用于低光图像增强。然而,由于原始全局 Transformer 的计算成本非常高,SNR-Net 仅在 U 型 CNN 的最低分辨率处使用一个全局 Transformer 层。这使得 Transformer在低光图像增强中的潜力仍然没有得到充分发挥。为了填补这一空白,我们设计了一种 照明引导 Transformer(IGT),来作为退化恢复器,用于在 Retinex 框架中实现低光图像增强。
3. 方法
在自己的数据集上涨点,写作时,请看原文即可
4. 实验
4.1 数据集与实现细节
我们在多个低光图像增强的标准数据集上评估了 Retinexformer,包括 LOL(v1 和 v2)、SID、SMID、SDSD 和 FiveK 数据集。此外,我们还在没有地面真值的 LIME、NPE、MEF、DICM 和 VV 数据集上进行了测试。
LOL:该数据集包括 v1 和 v2 两个版本,v2 数据集分为真实和合成子集。训练集和测试集的划分比例为 485:15(v1)、689:100(v2-真实)、900:100(v2-合成)。
SID:我们使用由 Sony α7S II 相机捕捉的 SID 数据集子集进行评估。SID 包含 2697 对短/长曝光 RAW 图像,低光和正常光 RGB 图像通过相机的内部信号处理转换得到。
SMID:SMID 基准数据集收集了 20809 对短/长曝光的 RAW 图像,我们也将 RAW 数据转换为低光/正常光 RGB 图像,15763 对用于训练,其余用于测试。
SDSD:该数据集由 Canon EOS 6D Mark II 相机使用 ND 滤光片拍摄,包含室内和室外子集。我们分别使用 62:6 和 116:10 的低光/正常光视频对进行训练和测试。
FiveK:MIT-Adobe FiveK 数据集包含 4500 对低光/正常光图像,500 对用于测试。这些图像由五位摄影师手工调整(标记为 A∼E),我们使用专家 C 调整的图像作为参考。
4.2 低光图像增强
定量结果:我们与多种最先进的低光图像增强算法进行了定量比较,结果显示,Retinexformer 在多个数据集上显著优于这些方法。特别是在 SID、SDSD-室内 和 LOL-v2-合成 数据集上,提升超过了 6 dB。
定性结果:在可视化效果上,Retinexformer 能有效增强图像的可见度,保留颜色,并且能够去除噪声和伪影,恢复清晰的图像细节。与其他方法相比,Retinexformer 能够更好地去除噪声,避免曝光过度或不足。
4.3 用户研究与低光检测
为了定量评估不同低光图像增强算法的主观视觉质量,我们进行了用户研究。共有 23 名测试者参与,测试者被要求观察各种增强算法的结果,并根据以下标准给出评分:
- 是否存在曝光不足或过度曝光的区域。
- 图像中是否存在色彩失真。
- 图像中是否存在噪声或伪影。
每个低光图像会展示给测试者,并与不同算法增强的结果进行对比,测试者评分范围从 1(最差)到 5(最好)。总共有 156 张测试图像,评分结果见表 3(a)。我们的 Retinexformer 在所有数据集上的平均评分最高,尤其在 LOL-v2-真实、LOL-v2-合成、SID、SMID 和 SDSD-户外 数据集上,表现优于其他方法。在 LOL-v1 和 SDSD-室内 数据集上,虽然不如上述几组,但仍表现得非常接近或第二高。
此外,我们还进行了低光物体检测实验,评估不同算法对高层次视觉理解(如物体检测)的影响。我们使用了 ExDark 数据集,该数据集包含 7363 张低光图像,并标注了 12 个物体类别的边界框。5890 张图像用于训练,1473 张用于测试。使用 YOLO-v3 作为物体检测器,并从头开始训练。不同的低光增强方法被用作前处理模块,所有模块都使用固定的参数。
定量结果:我们通过平均精度(AP)得分进行了比较,结果显示,Retinexformer 在 ExDark 数据集上获得了 66.1 的 AP 分数,比最近的最佳自监督方法 SCI [37] 高出 0.5 AP,比最佳全监督方法 SNR-Net [57] 高出 0.8 AP。此外,Retinexformer 在五个物体类别(自行车、船、瓶子、猫和狗)上表现最好。表 3(b)列出了各方法在物体检测中的平均精度和具体类别的 AP 分数。
定性结果:图 6 展示了在低光和增强图像下的物体检测结果。原图中检测器很容易漏掉一些物体(如船),或者在低光图像上预测不准确的位置。而在通过 Retinexformer 增强的图像中,检测器能够可靠地预测并正确覆盖所有物体,显示了我们方法在物体检测任务中的优越性。
4.4 消融实验
为了验证 Retinexformer 各个组件的效果,我们在 SDSD-户外 数据集上进行了消融实验。以下是我们主要的消融实验结果:
1. 组件分解消融
我们首先去除了 ORF 和 IG-MSA,并评估其在性能上的影响。表 4(a)中的 Baseline-1 移除了 ORF 和 IG-MSA。使用 ORF 和 IG-MSA 后,Baseline-1 分别提高了 1.45 dB 和 2.39 dB。当两者结合使用时,Baseline-1 的 PSNR 提升了 3.37 dB。这表明 ORF 和 IG-MSA 这两个模块的有效性。
2. 一阶段 Retinex 基础框架(ORF)消融
我们在表 4(b)中进行了 ORF 的消融实验。首先,我们去除了 ORF,直接使用 ( Ilu = I ) 作为输入,模型得到了 28.86 dB 的 PSNR。然后我们使用 ORF,但设定 ( E ) 来估计照明图 ( L ),此时输入变为 ( I ./ L )。由于计算机对小值的除法非常敏感,因此,尽管加入了一个小常数 ( \epsilon = 1 \times 10^{-4} ),模型的改进仅为 0.11 dB。为了避免这一问题,我们估计亮化图 ( \bar{L} ) 并将输入设为 ( I \odot \bar{L} ),此时模型的 PSNR 提升了 0.40 dB。最终,我们使用 ( F_{\text{lu}} ) 来引导恢复器 ( R ),模型的 PSNR 进一步提升了 0.58 dB。
3. 自注意力机制消融
在表 4(c)中,我们评估了自注意力机制的效果。Baseline-2 是去除 IG-MSA 的版本。我们还将全局多头自注意力(G-MSA)和窗口化自注意力(W-MSA)与 IG-MSA 进行对比。G-MSA 和 W-MSA 被插入到每个基础单元中进行实验,结果表明,IG-MSA 相比 G-MSA 和 W-MSA 分别提高了 1.41 dB 和 1.34 dB,同时 FLOPS 分别减少了 2.08G 和 0.86G。
5. 结论
在本文中,我们提出了一种新的基于 Transformer 的低光图像增强方法——Retinexformer。我们从 Retinex 理论出发,通过分析低光图像中的退化和亮化过程引入的误差,提出了一种新的 Retinex 基础框架(ORF)。在此基础上,我们设计了照明引导的 Transformer(IGT),通过利用照明信息来指导长程依赖建模,并增强不同光照条件下区域之间的交互作用。最终,通过将 IGT 与 ORF 相结合,我们得到了 Retinexformer。
广泛的定量和定性实验表明,Retinexformer 在多个数据集上显著超过了现有最先进的低光图像增强方法。用户研究和低光检测实验也证明了我们方法的实际应用价值,表明该方法能够有效提高低光图像的可视性,并在物体检测等高层次视觉任务中表现出良好的性能。
写在最后
学术因方向、个人实验和写作能力以及具体创新内容的不同而无法做到一通百通,所以本文作者即B站Up主:Ai学术叫叫兽
在所有B站资料中留下联系方式以便在科研之余为家人们答疑解惑,本up主获得过国奖,发表多篇SCI,擅长目标检测领域,拥有多项竞赛经历,拥有软件著作权,核心期刊等经历。因为经历过所以更懂小白的痛苦!因为经历过所以更具有指向性的指导!
祝所有科研工作者都能够在自己的领域上更上一层楼!!!