MMFNet: A Mamba-Based Multimodal Fusion Network for Semantic Segmentation of Remote Sensing

Jingting Qiu
Wei Chang
Wei Ren
Shanshan Hou
Ronghao Yang

Read the full article

Listed in

This article is not in any list yet, why not save it to one of your lists.

Abstract

Accurate semantic segmentation of high-resolution remote sensing imagery is challenged by substantial intra-class variability, inter-class similarity, and the limitations of single-modality data. This paper proposes MMFNet, a novel multimodal fusion network that leverages the Mamba architecture to efficiently capture long-range dependencies for semantic segmentation tasks. MMFNet adopts a dual-encoder design, combining ResNet-18 for local detail extraction and VMamba for global contextual modeling, striking a balance between segmentation accuracy and computational efficiency. A Multimodal Feature Fusion Block (MFFB) is introduced to progressively integrate complementary information from optical imagery and digital surface models (DSMs) via multi-kernel convolution and window-based cross-attention. Furthermore, a frequency-aware upsampling module (FreqFusion) is incorporated in the decoder to enhance boundary delineation and recover fine spatial details. Extensive experiments on the ISPRS Vaihingen and Potsdam benchmarks demonstrate that MMFNet achieves mean IoU scores of 83.50% and 86.06%, outperforming eight state-of-the-art methods while maintaining relatively low computational complexity. These results highlight MMFNet’s potential for efficient and accurate multimodal semantic segmentation in remote sensing applications.

Version published to 10.20944/preprints202508.0078.v1
Aug 4, 2025

MSCDDF: Multi-Stage Caption-Driven Diffusion Framework for Remote Sensing Image Semantic Segmentation

This article has 2 authors:
1. Xin Wang
2. Jiali Wang
This article has no evaluationsLatest version Jun 25, 2025
Enhancing Infrared-Visible Image Fusion via Text-Guided Adaptive Feature Integration

This article has 6 authors:
1. Jundong Zhang
2. Yanan Guo
3. Kangjian He
4. Dan Xu
5. SongHan Zheng
6. WenCheng Mei
This article has no evaluationsLatest version Jul 23, 2025
An Improved HRNetV2-Based Algorithm for Semantic Segmentation of Corroded Regions in Urban Drainage Pipes

This article has 1 author:
1. Gao Liang
This article has no evaluationsLatest version Jun 26, 2025

Listed in

Abstract

Article activity feed

Related articles

MSCDDF: Multi-Stage Caption-Driven Diffusion Framework for Remote Sensing Image Semantic Segmentation

Enhancing Infrared-Visible Image Fusion via Text-Guided Adaptive Feature Integration

An Improved HRNetV2-Based Algorithm for Semantic Segmentation of Corroded Regions in Urban Drainage Pipes