DCFNet: Dual-Branch Collaborative Fusion Network for Fine-Grained Visual Classification

Yang Qiao
Min Zuo
Zhiguo Yu
Xiaofeng Gu

Read the full article

Discuss this preprint

Start a discussion What are Sciety discussions?

Listed in

This article is not in any list yet, why not save it to one of your lists.

Abstract

Fine-grained visual classification aims to distinguish subcategories with subtle visual differences under high inter-class similarity. While auxiliary textual semantics provide supplementary information, existing multimodal methods still face a limitation in balancing global semantic consistency and local discriminative details. To address this limitation, we propose a Dual-Branch Collaborative Fusion Network (DCFNet), comprising two synergistic branches designed to decouple feature learning across granularities. Specifically, we design a cross-modal consistency alignment branch to calibrate the global semantic space. Complementarily, we construct a cross-modal transformer fusion branch to achieve fine-grained local feature interaction. This dual-branch collaboration maintains high-level semantic consistency while accurately capturing fine-grained discriminative cues. Extensive experiments and ablation studies on the CUB-200-2011, Con-Text, and Drink Bottle datasets demonstrate that DCFNet achieves competitive performance, providing an innovative solution for fine-grained visual classification tasks.

Version published to 10.21203/rs.3.rs-8803652/v1 on Research Square
Mar 19, 2026

Self-calibrated mutual learning for fine-grained image recognition

This article has 2 authors:
1. Jung-Ha Hwang
2. Doo-Hyun Choi
This article has no evaluationsLatest version Mar 9, 2026
Fusion-VTT: Visual-Tactile-Text Fusion Learning for Robotic Object Recognition

This article has 3 authors:
1. Li Yang
2. Liangqi Zhang
3. Min Li
This article has no evaluationsLatest version Mar 13, 2026
MFFP-Net: Multi-directional Feature Fusion and Position-Aware Network

This article has 4 authors:
1. Yazhong Si
2. Jingyu Chen
3. Hongxu Li
4. Chen Li
This article has no evaluationsLatest version Mar 9, 2026

Discuss this preprint

Listed in

Abstract

Article activity feed

Related articles

Self-calibrated mutual learning for fine-grained image recognition

Fusion-VTT: Visual-Tactile-Text Fusion Learning for Robotic Object Recognition

MFFP-Net: Multi-directional Feature Fusion and Position-Aware Network