Visually-Guided Audio-Visual Segmentation via Multi-Scale Fusion and Content-Guided Attention

Ying Cao
Sikun Meng
Yonghang Yan
Hengyi Ren

Read the full article

Discuss this preprint

Start a discussion What are Sciety discussions?

Listed in

This article is not in any list yet, why not save it to one of your lists.

Abstract

Audio-Visual Segmentation (AVS) aims to pixel-wise locate and segment sounding objects in videos driven by audio cues. However, current mainstream methods typically employ audio-centric Transformer frameworks that derive object queries primarily from audio features. These approaches often suffer from a fundamental modality mismatch: relying on temporal audio signals to resolve spatial segmentation tasks leads to perceptual ambiguity and a loss of fine-grained visual details, particularly in complex acoustic environments. To address these challenges, this paper proposes a novel visually-guided framework incorporating a Multi-Scale Fusion (MSF) module and a Content-Guided Attention Fusion (CGAF) mechanism. Unlike existing approaches, our method prioritizes visual information to generate visually-derived queries, which then interact with audio context within a Transformer decoder for deep semantic refinement. Extensive experiments on standard benchmarks demonstrate that our approach effectively aligns cross-modal information and achieves state-of-the-art performance, significantly outperforming existing baselines

Version published to 10.21203/rs.3.rs-8588831/v1 on Research Square
Feb 6, 2026

Fusion-VTT: Visual-Tactile-Text Fusion Learning for Robotic Object Recognition

This article has 3 authors:
1. Li Yang
2. Liangqi Zhang
3. Min Li
This article has no evaluationsLatest version Mar 13, 2026
Decoupling Geometry and Content: A Reliability-Aware Attention Framework for Robust BEV Perception

This article has 2 authors:
1. Peiyuan Qu
2. Mengxing Huang
This article has no evaluationsLatest version Feb 26, 2026
A Dual-Modality Spatio-Temporal and Frequency Framework for Robust Deepfake Detection

This article has 7 authors:
1. Arman Sajjadi
2. Sayna Sarvar
3. Mobin Nekou
4. Mahdi Fallah
5. Delaram Mehralizadeh
6. Mohammad Hossein Jabbarzadeh
7. Pedram Salehpour
This article has no evaluationsLatest version Feb 27, 2026

Discuss this preprint

Listed in

Abstract

Article activity feed

Related articles

Fusion-VTT: Visual-Tactile-Text Fusion Learning for Robotic Object Recognition

Decoupling Geometry and Content: A Reliability-Aware Attention Framework for Robust BEV Perception

A Dual-Modality Spatio-Temporal and Frequency Framework for Robust Deepfake Detection