近日,自动化领域国际权威期刊《Automation in Construction》(中科院一区SCI期刊,影响因子:11.5)在线发表了题为“Multimodal plane instance segmentation with the Segment Anything Model”的研究成果。该研究提出了一种名为PlaneSAM的新型深度学习模型,它首次在深度学习模型中同时利用RGB-D数据的所有四个通道(红、绿、蓝和深度),旨在解决三维场景中平面实例分割的精度问题,为建筑信息模型(BIM)、室内3D重建和自动驾驶等领域提供了全新的高效解决方案。该成果由人工智能学院曾诚&孟岩团队与武汉大学杨必胜&陈驰团队联合完成,第一作者为湖北大学2022级本科生邓忠晨和杨哲晨,以及武汉大学的陈驰教授。
当前,精确的平面实例分割(如识别墙壁、地板)是机器理解三维物理世界的关键。然而,现有的主流深度学习方法(如PlaneRCNN、PlaneTR和PlaneSeg)在处理同时包含光谱(RGB)和几何(Depth)信息的图像时,虽然展现出较大潜力,但仍然存在只依赖RGB颜色信息而忽略关键的深度几何信息的不足,限制了其在复杂三维场景感知任务中的适用性。
针对上述挑战,研究团队研发了名为PlaneSAM的多模态平面实例分割模型。该方法通过首创的“双重复杂度骨干网络”,用一个简单网络分支处理深度数据以防过拟合,同时通过复杂分支保留基础模型EfficientSAM强大的特征表征能力;此外,算法创新性地采用了无需人工标注的自监督预训练策略,在自动生成的大规模标签数据上进行学习以提升模型泛化能力;最终,通过优化损失函数,极大提升了对大面积平面的分割精度和在全新场景下的泛化能力。
为验证所提方法的有效性,研究团队在ScanNet、Matterport3D等多个国际公认的基准数据集上进行了全面评估。实验结果表明,该方法在所有测试数据集上均取得了当前最优(SOTA)性能。相比于基础模型EfficientSAM,PlaneSAM在性能大幅提升的同时,仅引入了不到10%的额外计算开销。该研究不仅首次证实了在深度学习模型中融合全部RGB-D四通道信息的巨大潜力,也为机器人技术、建筑自动化和实景三维构建提供了强有力的技术支持。论文中提出的双重复杂度骨干网络和自监督学习范式,也为迁移其他RGB基础模型到RGB+X领域以及训练数据缺乏情境下的深度学习模型训练任务提供了宝贵的借鉴。
本研究工作获得了测绘遥感信息工程全国重点实验室开放基金、武汉市知识创新专项曙光计划项目、中国国家自然科学基金、国家重点研发计划和湖北省重点研发计划等项目的资助。
论文链接:https://www.sciencedirect.com/science/article/pii/S0926580525005813?dgcid=author#sec4
(审稿人:曾诚、孟岩)