ConvDeiT-Tiny: Adding Local Inductive Bias to DeiT-Ti for Enhanced Maize Leaf Disease Classification

Damaris Waema
Waweru Mwangi
Petronilla Muriithi

Read the full article

Discuss this preprint

Start a discussion What are Sciety discussions?

Listed in

This article is not in any list yet, why not save it to one of your lists.

Abstract

Reliable identification of maize leaf diseases is critical for mitigating crop losses, particularly in regions where farmers have limited access to experts. Although vision transformers (ViTs) have recently demonstrated strong performance in image recognition, their weak inductive bias and limited modelling of local texture patterns make them non-ideal for fine-grained maize leaf disease classification. To address these limitations, we propose ConvDeiT-Tiny, a lightweight hybrid ViT that improves DeiT-Ti by placing depthwise convolutions in parallel with multi-head self-attention modules in the first three transformer blocks. The local and global features captured by the convolution and attention modules are concatenated along the embedding dimension and fused using a multilayer perceptron. This results in richer token representations without significantly increasing model size. Across three datasets, ConvDeiT-Tiny (6.9M parameters) consistently outperformed DeiT-Ti, DeiT-Ti-Distilled, and DeiT-S (21.7M parameters) when trained from scratch. With transfer learning, ConvDeiT-Tiny achieved an accuracy of 99.15%, 99.35%, and 98.60% on the CD&amp;S, primary, and Kaggle datasets, respectively, surpassing many previous studies with far fewer parameters. For explainability, we present gradient-weighted transformer attribution visualizations showing the disease lesions driving model predictions. These results indicate that injecting local inductive bias in early transformer blocks is beneficial for accurate maize leaf disease classification.

Version published to 10.20944/preprints202603.0130.v1
Mar 2, 2026

Efficient Attention-Based Hybrid Deep Learning Architecture for Multi-Crop Plant Disease Recognition

This article has 2 authors:
1. Yash Ghavghave
2. Rajendra Rewatkar
This article has no evaluationsLatest version Mar 12, 2026
An Efficient Hybrid Convolutional Vision Transformer Framework with Spatial Attention for Rice Leaf Disease Identification and Categorization

This article has 1 author:
1. Pushpa Athisaya Sakila Rani
This article has no evaluationsLatest version Mar 16, 2026
Hybrid CNN–Transformer Model for Maize Leaf Blight Classification using Adaptive Genetic Optimization

This article has 2 authors:
1. Akhilesh Kumar
2. Lokendra Singh Umrao
This article has no evaluationsLatest version Feb 20, 2026

Discuss this preprint

Listed in

Abstract

Article activity feed

Related articles

Efficient Attention-Based Hybrid Deep Learning Architecture for Multi-Crop Plant Disease Recognition

An Efficient Hybrid Convolutional Vision Transformer Framework with Spatial Attention for Rice Leaf Disease Identification and Categorization

Hybrid CNN–Transformer Model for Maize Leaf Blight Classification using Adaptive Genetic Optimization