Evaluating Classical and Transformer-Based Models for Urdu Abstractive Text Summarization: A Systematic Review

Muhammad Azhar
Adeen Amjad
Deshinta Arrova Dewi
Shahreen Kasim

Read the full article

Listed in

This article is not in any list yet, why not save it to one of your lists.

Abstract

The rapid growth of digital content in Urdu has created an urgent need for effective automatic text summarization (ATS) systems. While extractive methods have been widely studied, abstractive summarization for Urdu remains largely unexplored, primarily due to the language's complex morphology and rich literary tradition. This paper systematically evaluates four transformer-based language models (BERT-Urdu, BART, mT5, and GPT-2) for Urdu abstractive summarization, comparing their performance against conventional machine learning and deep learning approaches. Using multiple Urdu datasets, including the Urdu Summarization Corpus, Fake News Dataset, and Urdu-Instruct-News, we demonstrate that fine-tuned Transformer Language Models (TLMs) significantly outperform traditional methods, with the multilingual mT5 model achieving a 0.42\% average improvement in F1-score over the best baseline. Our analysis reveals that mT5's architecture is particularly effective at handling Urdu-specific challenges such as right-to-left script processing, diacritic interpretation, and complex verb-noun compounding. The study presents empirically validated hyperparameter configurations and training strategies for Urdu ATS, establishing transformer-based approaches as the new state-of-the-art for Urdu text summarization. Our experiments demonstrate that mT5 outperforms Seq2Seq baselines by 20\% in ROUGE-L, underscoring the efficacy of Transformer-based models for Urdu summarization despite limited resources, while offering practical insights for low-resource language NLP applications.

Version published to 10.20944/preprints202507.1846.v1
Jul 23, 2025

Hybrid FastText-LSTM for Fake News Detection: A Multilingual Approach with a Focus on Kurdish and English

This article has 2 authors:
1. Azad Karim
2. Bryar Hassan
This article has no evaluationsLatest version Jul 2, 2025
Fine-Tuning Large Language Models for Kazakh Text Simplification

This article has 3 authors:
1. Alymzhan Toleu
2. Gulmira Tolegen
3. Irina Ualiyeva
This article has no evaluationsLatest version Jun 24, 2025
GinLish Corpus v0.1.0 - Development and Evaluation of Low-Resource Tagin-English Parallel Corpus

This article has 2 authors:
1. Tungon Dugi
2. Koj Sambyo
This article has no evaluationsLatest version Jun 25, 2025

Listed in

Abstract

Article activity feed

Related articles

Hybrid FastText-LSTM for Fake News Detection: A Multilingual Approach with a Focus on Kurdish and English

Fine-Tuning Large Language Models for Kazakh Text Simplification

GinLish Corpus v0.1.0 - Development and Evaluation of Low-Resource Tagin-English Parallel Corpus