<p style="-qt-block-indent: 0; text-indent: 0px; margin: 0px;">AttnLink: Enhancing Cross-Modal Fusion for Robust Image-to-PointCloud Place Recognition

Ziyu Fang
Minghao Ye

Read the full article

Discuss this preprint

Start a discussion What are Sciety discussions?

Listed in

This article is not in any list yet, why not save it to one of your lists.

Abstract

Image-to-PointCloud (I2P) place recognition is crucial for autonomous systems, facing challenges from modality discrepancies and environmental variations. Existing feature fusion strategies often fall short in complex real-world scenarios. We propose AttnLink, a novel framework that significantly enhances I2P place recognition through a sophisticated attention-guided cross-modal feature fusion mechanism. AttnLink integrates an Adaptive Depth Completion Network to generate dense depth maps and an Attention-Guided Cross-Modal Feature Encoder, utilizing lightweight spatial attention for local features and a context-gating mechanism for robust semantic clustering. Our core innovation is a Multi-Head Attention Fusion Network, which adaptively weights and fuses multi-modal, multi-level descriptors for a highly discriminative global feature vector. Trained end-to-end, AttnLink demonstrates superior performance on KITTI and HAOMO datasets, outperforming state-of-the-art methods in retrieval accuracy, efficiency, and robustness to varying input quality. Detailed ablation studies confirm the effectiveness of its components, supporting AttnLink's reliable deployment in real-time autonomous driving applications.

Version published to 10.20944/preprints202601.1003.v1
Jan 14, 2026

Multimodal Model Based on Contrastive Language-Image Pretraining for Micro-Expression Recognition

This article has 5 authors:
1. Peng Yang
2. Xiaoguang Wu
3. Yanyang Zhou
4. Qilin Wei
5. Zhifeng Zeng
This article has no evaluationsLatest version Dec 17, 2025
Adaptive Contextual Feature Grafting and Hierarchical Structure-Aware Initialization for Training-Free Subject-Driven Text-to-Image Generation

This article has 2 authors:
1. Salma Ali
2. Noah Fang
This article has no evaluationsLatest version Dec 18, 2025
TriORU2-Net++: Attention-Guided Three-StageU2-Net++ for Light Field Occlusion Removal

This article has 5 authors:
1. Mostafa Farouk Senussi
2. Mahmoud Abdalla
3. Mahmoud SalahEldin Kasem
4. Mohamed Mahmoud
5. Hyun-Soo Kang
This article has no evaluationsLatest version Jan 19, 2026

Discuss this preprint

Listed in

Abstract

Article activity feed

Related articles

Multimodal Model Based on Contrastive Language-Image Pretraining for Micro-Expression Recognition

Adaptive Contextual Feature Grafting and Hierarchical Structure-Aware Initialization for Training-Free Subject-Driven Text-to-Image Generation

TriORU2-Net++: Attention-Guided Three-StageU2-Net++ for Light Field Occlusion Removal