NeurIPS 2023 Spotlight | VoxDet：基于3D体素表征学习的新颖实例检测器

最新推荐文章于 2025-04-17 11:44:05 发布

TechBeat人工智能社区

最新推荐文章于 2025-04-17 11:44:05 发布

阅读量1k

点赞数 29

分类专栏：技术文章文章标签：人工智能目标检测多视图几何数据集计算机视觉 NeurIPS

本文链接：https://blog.csdn.net/hanseywho/article/details/136292650

版权

本文提出了一种基于3D体素表征的实例检测器VoxDet，通过处理多视图输入，有效解决二维特征匹配的鲁棒性、遮挡和效率问题。实验结果显示，VoxDet在复杂场景中表现出色，且在NeurIPS2023被选为SpotLight。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文提出基于3D体素表征学习的新颖实例检测器VoxDet。给定目标实例的多视图，VoxDet建立该实例的三维体素表征。在更加杂乱的测试图片上，VoxDet使用体素匹配算法检测目标实例。实验表明，VoxDet中的三维体素表征与匹配比多种二维特征与匹配要更鲁棒、准确与高效。本文已收录于NeurIPS 2023并被选为SpotLight。

论文题目： VoxDet: Voxel Learning for Novel Instance Detection

论文链接：VoxDet: Voxel Learning for Novel Instance Detection | OpenReview

开源代码： GitHub - Jaraxxus-Me/VoxDet: Official code for NeurIPS 2023 SpotLight: VoxDet: Voxel Learning for Novel Instance Detection

ROS部署： GitHub - Jaraxxus-Me/voxdet_ros: Ros Interface for VoxDet

01. 引言

实例检测/分割是计算机视觉研究已久的问题。大多数现有的实例检测算法可以从测试图片上获取所有实例的目标框（及其ID代号），在现实生活中，我们很多时候不只需要获得“所有”实例的检测框，还需要得到“某个特定”实例的检测结果（试想，在机场找寻自己的行李箱，在洗衣房找寻丢失的袜子，在停车场找到自己的车等等）。

在本文中，我们探讨了特定新颖实例的检测问题（Novel Instance Detection）。给定任何（可能是训练过程中未见过的新颖的）特定实例的多视图，我们希望在测试图上又快又好的得到检测结果。过往的算法通常是基于物体的二维特征，如二维“局部”特征匹配，二维注意力等等。然而，这类算法有如下三大问题（1）（全局）二维特征匹配对实例的旋转是不稳定的（2）二维特征对于物体的遮挡不够稳定（3）二维匹配通常不够高效（因为每个测试图上的候选框都要和每一张二维多视图匹配）。

反观人类，我们观察，记忆，并搜索一个实例，在脑海中形成的不只是一张张独立的二维图片，而是包含该实例几何的“三维”记忆。基于这种“带有几何的记忆”，即使实例被遮挡或展现出不同的旋转方位时，我们仍能在环境背景干扰下定位该实例。

在这一直觉的驱动下，我们研发了一种基于三维体素表征的实例检测器，VoxDet。它结合了实例的三维几何和二维外观特征&#