Deep Learning for Multimodal Facial Expression Recognition with Bengali Audio Integration

Arnab Sangit
Moin Mostakim

Read the full article

Listed in

This article is not in any list yet, why not save it to one of your lists.

Abstract

This study investigates deep learning models for facial expression recognition, integrating Bengali audio feedback. Utilizing a meticulously curated dataset of diverse facial images, each labeled with emotion and corresponding Bengali audio, along with demographic metadata, we evaluated CNN, RNN, and hybrid model performance. We also assessed data augmentation’s impact. Our findings demonstrate that hybrid CNN-RNN models achieved superior accuracy in recognizing expressions and generating appropriate Bengali audio feedback. Furthermore, we analyzed model robustness across demographic groups. This work advances multimodal deep learning, particularly for communication 8 contexts requiring Bengali audio feedback.

Version published to 10.20944/preprints202508.0249.v1
Aug 5, 2025

GBV-Net: Hierarchical Fusion of Facial Expressions and Physiological Signals for Multimodal Emotion Recognition

This article has 4 authors:
1. Jiling Yu
2. Yandong Ru
3. Bangjun Lei
4. Hongming Chen
This article has no evaluationsLatest version Sep 2, 2025
Interpretable Multimodal Emotion Recognition in Counseling Dialogues via Factor Analysis and Gaussian Mixture Modeling

This article has 1 author:
1. Keita Kiuchi
This article has no evaluationsLatest version Aug 24, 2025
Learning Emotional Nuances in Speech via DCNNs and Spectral Feature Integration

This article has 5 authors:
1. K. Venkatesh Sharma
2. Pramod Reddy
3. Rakesh Betala
4. Madhavi Pappula
5. Shirisha Reddy K
This article has no evaluationsLatest version Sep 2, 2025

Listed in

Abstract

Article activity feed

Related articles

GBV-Net: Hierarchical Fusion of Facial Expressions and Physiological Signals for Multimodal Emotion Recognition

Interpretable Multimodal Emotion Recognition in Counseling Dialogues via Factor Analysis and Gaussian Mixture Modeling

Learning Emotional Nuances in Speech via DCNNs and Spectral Feature Integration