Fusion-VTT: Visual-Tactile-Text Fusion Learning for Robotic Object Recognition

Li Yang
Liangqi Zhang
Min Li

Read the full article

Discuss this preprint

Start a discussion What are Sciety discussions?

Listed in

This article is not in any list yet, why not save it to one of your lists.

Abstract

Multimodal fusion is a promising approach to enhance environmental perception and object recognition for robotic systems. However, the inherent heterogeneity and semantic discrepancies among visual, tactile, and textual modalities pose significant challenges for feature fusion. This paper proposes a novel hierarchical fusion framework, Fusion-VTT, designed to achieve deep feature-level fusion across visual, tactile, and textual modalities. The framework first employs Patch Embedding and a Pre-trained Bidirectional Encoder Representations from Transformers (BERT) model to extract features from three modalities, followed by spatial alignment. It then innovatively incorporates parameter-sharing cross-attention mechanism to establish six bidirectional interaction pathways between modality pairs, thereby capturing fine-grained cross-modal correlations. Subsequently, a self-attention module is applied to integrate features into a globally consistent representation. To evaluate the proposed method, a new multimodal dataset comprising 20 categories of common household objects was compiled. Experimental results on this custom dataset and the public MSDO dataset demonstrate that Fusion-VTT achieves a recognition accuracy of 99.23%, substantially outperforming existing baseline methods and confirming the effectiveness of the proposed fusion strategy.

Version published to 10.21203/rs.3.rs-9067694/v1 on Research Square
Mar 13, 2026

DCFNet: Dual-Branch Collaborative Fusion Network for Fine-Grained Visual Classification

This article has 4 authors:
1. Yang Qiao
2. Min Zuo
3. Zhiguo Yu
4. Xiaofeng Gu
This article has no evaluationsLatest version Mar 19, 2026
MFFP-Net: Multi-directional Feature Fusion and Position-Aware Network

This article has 4 authors:
1. Yazhong Si
2. Jingyu Chen
3. Hongxu Li
4. Chen Li
This article has no evaluationsLatest version Mar 9, 2026
CMAFNet: Efficient Cross-Modal Alignment and Fusion for Real-Time RGB–Infrared Object Detection in Autonomous Driving

This article has 3 authors:
1. Zi-Han Huang
2. Chen-Wei Liang
3. Mu-Jiang-Shan Wang
This article has no evaluationsLatest version Mar 5, 2026

Discuss this preprint

Listed in

Abstract

Article activity feed

Related articles

DCFNet: Dual-Branch Collaborative Fusion Network for Fine-Grained Visual Classification

MFFP-Net: Multi-directional Feature Fusion and Position-Aware Network

CMAFNet: Efficient Cross-Modal Alignment and Fusion for Real-Time RGB–Infrared Object Detection in Autonomous Driving