Multi-modal Entity Alignment based on Enhanced Relationship Learning and Multi-layer Feature Fusion

Huayu Li
Cuicui Wang
Xinxin Chen
Chi Zhang

Read the full article

Discuss this preprint

Start a discussion What are Sciety discussions?

Listed in

This article is not in any list yet, why not save it to one of your lists.

Abstract

Entity alignment is a critical technique for integrating diverse knowledge graphs. Although existing methods have achieved impressive success in traditional entity alignment, they may struggle to handle the complexities arising from interactions and dependencies in multi-modal knowledge. In this paper, we propose a novel multi-modal entity alignment model called ERMF, which leverages distinct modal characteristics of entities to identify equivalent entities across different multi-modal knowledge graphs. Specifically, we first utilize different feature encoders to independently extract features from different modalities. Concurrently, we incorporate visual features and random sampling methods to design a vision-guided negative sample generation strategy based on contrastive learning, guiding the model to learn relationship embeddings. Subsequently, in the feature fusion stage, we propose a multi-layer feature fusion approach that incorporates multiple attention mechanisms to hierarchically process the importance weights and interactions of the modalities, thereby obtaining multi-granularity features of the modalities. Extensive experiments were conducted on two public datasets, and the results demonstrated that ERMF significantly outperforms competitive baseline models, confirming the effectiveness of the proposed model.

Version published to 10.21203/rs.3.rs-5271844/v1 on Research Square
Oct 18, 2024

Entity-Aware Cross-Modal Fusion Network for Fine-Grained Entity Consistency Verification in Multimodal News Misinformation Detection

This article has 3 authors:
1. Mark Harris
2. Hunter Shaw
3. Ryan Young
This article has no evaluationsLatest version Jan 9, 2026
<p style="-qt-block-indent: 0; text-indent: 0px; margin: 0px;">AttnLink: Enhancing Cross-Modal Fusion for Robust Image-to-PointCloud Place Recognition

This article has 2 authors:
1. Ziyu Fang
2. Minghao Ye
This article has no evaluationsLatest version Jan 14, 2026
CLARA: Enhancing Multimodal Sentiment Analysis via Efficient Vision-Language Fusion

This article has 3 authors:
1. Phuong Lam
2. Phan Thi Tuoi
3. Thien Khai Tran
This article has no evaluationsLatest version Jan 7, 2026

Discuss this preprint

Listed in

Abstract

Article activity feed

Related articles

Entity-Aware Cross-Modal Fusion Network for Fine-Grained Entity Consistency Verification in Multimodal News Misinformation Detection

<p style="-qt-block-indent: 0; text-indent: 0px; margin: 0px;">AttnLink: Enhancing Cross-Modal Fusion for Robust Image-to-PointCloud Place Recognition

CLARA: Enhancing Multimodal Sentiment Analysis via Efficient Vision-Language Fusion