Multimodal Denoising Recommendation Based on Confidence and Hierarchical Cross-Modal Alignment

Shuguang Zhang
Yu Cheng
Xinyu Zheng
Yunlong Wang
Liangpeng Hu
Jiaxin Yue
Liming Liu

Read the full article

Discuss this preprint

Start a discussion What are Sciety discussions?

Listed in

This article is not in any list yet, why not save it to one of your lists.

Abstract

In multimodal recommendation systems, modal conflict and noise interference significantly degrade model performance. While aligning different modalities via full-attention mechanisms partially mitigates modal conflict, it suffers from highcomputational complexity and disregards semantic hierarchies. On the other hand, conventional contrastive learning, though effective in suppressing noise, often lacks sufficient discriminative power to distinguish between residual noise and semantically meaningful features during denoising. To address these limitations, we propose a Multimodal Denoising Recommendation Based on Confidence and Hierarchical Cross-Modal Alignment (MDR-CHCA). This model designs a hierarchical cross-modal alignment module, which reduces computational complexity and generates fine-grained aligned features through two-stage process: global alignment between phrases and image regions, and fine-grained alignment between words and image regions. Furthermore, we introduce a confidence-weighted contrastive loss to dynamically select high-quality positive and negative pairs, thereby enhancing the model’s robustness against noise and its discriminative capability. Extensive experiments on three public datasets (Baby, Sports, and Clothing) validate the effectiveness and superiority of the proposed approach.

Version published to 10.21203/rs.3.rs-7887645/v1 on Research Square
Dec 1, 2025

<p style="-qt-block-indent: 0; text-indent: 0px; margin: 0px;">AttnLink: Enhancing Cross-Modal Fusion for Robust Image-to-PointCloud Place Recognition

This article has 2 authors:
1. Ziyu Fang
2. Minghao Ye
This article has no evaluationsLatest version Jan 14, 2026
TCFNet: An End-to-End Framework for Multimodal Action Quality Assessment via Temporal Enhancement and Contrastive Fusion

This article has 4 authors:
1. Zhenxian Lin
2. Minghui Zhang
3. Chengmao Wu
4. Mingzhu Zhang
This article has no evaluationsLatest version Dec 19, 2025
CLARA: Enhancing Multimodal Sentiment Analysis via Efficient Vision-Language Fusion

This article has 3 authors:
1. Phuong Lam
2. Phan Thi Tuoi
3. Thien Khai Tran
This article has no evaluationsLatest version Jan 7, 2026

Discuss this preprint

Listed in

Abstract

Article activity feed

Related articles

<p style="-qt-block-indent: 0; text-indent: 0px; margin: 0px;">AttnLink: Enhancing Cross-Modal Fusion for Robust Image-to-PointCloud Place Recognition

TCFNet: An End-to-End Framework for Multimodal Action Quality Assessment via Temporal Enhancement and Contrastive Fusion

CLARA: Enhancing Multimodal Sentiment Analysis via Efficient Vision-Language Fusion