Large-Scale Hybrid Dialogue Data Processing for Transformer-Based Generative Chatbots Using Pretrained DeBERTa Embeddings

Tarek Barhoum
Mina Ibrahim
Karam Alghazi

Read the full article

Discuss this preprint

Start a discussion What are Sciety discussions?

Listed in

This article is not in any list yet, why not save it to one of your lists.

Abstract

This paper presents a scalable generative chatbot built on a Transformer-based encoder decoder architecture with pretrained DeBERTa embeddings. The model is trained on a hybrid large scale dialogue corpuscomprising over 120K question–answer pairs from real-world datasets (QuAC, DailyDialog) and curated synthetic dialogues generated by large language models. The architecture incorporates multi-head self-attention, positional encoding, residual connections, and a pre-norm strategy to enhance contextual understanding and generalization. Experimental results demonstrate a training accuracy of 99% and a BLEU score of 90.1%, highlighting the model’s effectiveness in processing and generating coherent responses from massive heterogeneous conversational datasets. This work contributes to big data analytics in NLP by integrating large-scale dataset curation with advanced Transformer-based modeling for conversational AI.

Version published to 10.21203/rs.3.rs-7530129/v1 on Research Square
Sep 24, 2025

Accelerating Small Language Model via Quantization: A GPT-4 Guided Approach for Low-Resource Story Completion

This article has 1 author:
1. Rakshit Dabral
This article has no evaluationsLatest version Oct 22, 2025
Fluent vs. Non-fluent Data Augmentation in Knowledge Distillation for Machine Translation for Low-Resource Languages

This article has 4 authors:
1. Aarón Galiano-Jiménez
2. Juan Antonio Pérez-Ortiz
3. Felipe Sánchez-Martínez
4. Víctor M. Sánchez-Cartagena
This article has no evaluationsLatest version Sep 3, 2025
Speaker-Aware Emotion Recognition in Dialogues via SemGloVe- BERT and Graph Attention Networks

This article has 2 authors:
1. Sakunthala Prabha K S
2. Suguna Marappan
This article has no evaluationsLatest version Sep 23, 2025

Discuss this preprint

Listed in

Abstract

Article activity feed

Related articles

Accelerating Small Language Model via Quantization: A GPT-4 Guided Approach for Low-Resource Story Completion

Fluent vs. Non-fluent Data Augmentation in Knowledge Distillation for Machine Translation for Low-Resource Languages

Speaker-Aware Emotion Recognition in Dialogues via SemGloVe- BERT and Graph Attention Networks