Decoupled Yet Aligned Transformer for Semantic Image-Text Retrieval

Finn Alexander
Linh Anh
Jannat Roy
Ava Grace

Read the full article

Listed in

This article is not in any list yet, why not save it to one of your lists.

Abstract

Retrieving semantically related content across visual and textual modalities remains a central challenge in multimodal artificial intelligence. Despite rapid progress in cross-modal understanding, many existing systems still struggle with balancing modality-specific representation fidelity and scalability in retrieval scenarios. In this paper, we present \textbf{DUET} (Dual-Stream Encoder for Unified Embedding and Translation), a transformer-based architecture that explicitly separates the encoding pipelines of visual and textual modalities in early layers, yet strategically enforces alignment through shared parameters in deeper layers. This modular approach allows DUET to retain modality-specific semantics while constructing a unified latent space suitable for fast and accurate retrieval. Unlike prior architectures that rely on entangled attention mechanisms, DUET’s design enables precomputed indexing and supports efficient large-scale matching. Additionally, we propose a new evaluation protocol grounded in semantic similarity by leveraging caption-level soft relevance, extending beyond traditional binary Recall@K metrics. Our method introduces a similarity-weighted discounted cumulative gain (DCG) scoring scheme to reflect more nuanced relevance patterns. Empirical results on the MS-COCO benchmark demonstrate that DUET consistently outperforms existing methods on both hard and soft retrieval metrics, setting a new state of the art under weakly supervised settings. Code and pre-trained models will be made publicly available upon publication.

Version published to 10.20944/preprints202509.0491.v1
Sep 5, 2025

Learning to Retrieve, Generate, and Compress: A Unified View of Efficient RAG

This article has 4 authors:
1. Faruq Brontes
2. Jeanie Genesis
3. Zachariah Noa
4. Sigiwardaz Nymphodoros
This article has no evaluationsLatest version Aug 18, 2025
ADT-Net: Adaptive Transformation-Driven Text-Based Person Search Network for Enhancing Cross-Modal Retrieval Robustness

This article has 4 authors:
1. zimo li
2. yanxiao gong
3. guoqing zhang
4. jianwei zhang
This article has no evaluationsLatest version Jul 18, 2025
Zero-Shot Image Super-Resolution Using Prompt-Driven Vision-Language Foundation Models Without Task-Specific Fine-Tuning

This article has 1 author:
1. K. AKILA
This article has no evaluationsLatest version Sep 1, 2025

Listed in

Abstract

Article activity feed

Related articles

Learning to Retrieve, Generate, and Compress: A Unified View of Efficient RAG

ADT-Net: Adaptive Transformation-Driven Text-Based Person Search Network for Enhancing Cross-Modal Retrieval Robustness

Zero-Shot Image Super-Resolution Using Prompt-Driven Vision-Language Foundation Models Without Task-Specific Fine-Tuning