CVSep 29, 2025

Robust Multimodal Semantic Segmentation with Balanced Modality Contributions

Jiaqi Tan, Xu Zheng, Fangyu Li, Yang Liu

arXiv:2509.24505v1h-index: 3

Originality Incremental advance

AI Analysis

This work addresses a critical challenge for practical multimodal segmentation by improving robustness under degraded conditions, though it appears incremental as it builds upon existing multimodal fusion methods.

The paper tackles the problem of imbalanced modal dependencies in multimodal semantic segmentation, which degrades performance when a dominant modality deteriorates, and proposes EQUISeg, a framework that balances modality contributions through equal encoding and a self-guided module, achieving significant performance gains in experiments on multiple datasets.

Multimodal semantic segmentation enhances model robustness by exploiting cross-modal complementarities. However, existing methods often suffer from imbalanced modal dependencies, where overall performance degrades significantly once a dominant modality deteriorates in real-world scenarios. Thus, modality balance has become acritical challenge for practical multimodal segmentation. To address this issue, we propose EQUISeg, a multimodal segmentation framework that balances modality contributions through equal encoding of modalities. Built upon a four-stage Cross-modal Transformer Block(CMTB), EQUISeg enables efficient multimodal fusion and hierarchical selection. Furthermore, we design a Self-guided Module(SGM) that mitigates modality imbalance by introducing a mutual guidance mechanism, enabling each modality to adaptively adjust its contribution and enhance robustness under degraded conditions. Extensive experiments on multiple datasets demonstrate that EQUISeg achieves significant performance gains and effectively alleviates the adverse effects of modality imbalance in segmentation tasks.

View on arXiv PDF

Similar