VarDrug: A Machine Learning Approach for Variant-Drug Interaction, Application to Drugs for Psychiatric Disorders

MohammadReza KarimiNejad
Narges SangaraniPour
Yasmin Naji
Mohammad Shafiezadeh
Reza Tavakoli
Siavash Ahmadi
Babak Khalaj
Mohammad Hossein Rohban

Read the full article

Discuss this preprint

Start a discussion What are Sciety discussions?

Listed in

This article is not in any list yet, why not save it to one of your lists.

Abstract

Predicting variant-drug interactions is essential for advancing precision medicine across therapeutic areas. The Pharmacogenomics Knowledge Base (PharmGKB) dataset, with ~11,000 samples, is underutilized in machine learning (ML) due to its limited size. After filtering for variant mappings and excluding metabolizer-related conditions, we obtain ~4,000 samples for a six-class prediction task (increasing or decreasing toxicity, efficacy, and dosage). We introduce VarDrug, the first ML framework for variant-drug interaction prediction using PharmGKB, designed to model interactions between genetic variants and drugs. VarDrug integrates a self-supervised VariantEncoder pre-trained on 100,000 GRCh38 variants, Fingerprint method for drug encoding, and gene co-expression profiles for enhanced variant representation. Using SMOTE for class balancing and 5-fold cross-validation, we evaluate five ML models (CatBoost, RandomForest, ExtraTree, DecisionTree, SVC) against label encoding and rule-based baselines. RandomForest achieves a weighted F1 score of 90%, significantly outperforming baselines (best weighted F1: 68%). Ablation studies confirm the VariantEncoder’s critical role, while a case study on psychiatric disorders, focusing on borderline personality disorder (BPD), demonstrates biological plausibility with alignment to known pharmacogenetic annotations for genes like ABCB1 and CYP2D6. VarDrug’s approach, mapping drug-gene and mechanism-of-action-gene interactions, offers a scalable framework for optimizing treatment strategies and reducing adverse drug reactions across pharmacogenomic applications.

Version published to 10.1101/2025.06.28.25330468 on medRxiv
Jun 30, 2025

Deep Learning Paradigm for Precision Lung Cancer Therapy with AI-Driven Genotype-Phenotype Mining and Patient-Derived Organoid Validation

This article has 19 authors:
1. Zhongze Gu
2. Mingyue Li
3. Xiaoming Shi
4. Tianmu Hu
5. Juan Zhang
6. Ziliang Ye
7. Yuhan Cai
8. Qiwei Li
9. Linchong Liu
10. Wenlong Yu
11. Jiajia Jing
12. Qiuyin Zhang
13. Juanjuan Li
14. Xin Zhou
15. Nan Qiao
16. Jun Bao
17. Zaozao Chen
18. Lili Xu
19. Tao Wang
This article has no evaluationsLatest version Dec 23, 2025
Multi-Modal Ensemble Learning for TLR4 Binding Prediction: Addressing Data Scarcity and Leakage in Small Molecule Drug Discovery

This article has 3 authors:
1. Brandon Yee
2. Maximilian Rutkowski
3. Wilson Collins
This article has no evaluationsLatest version Jan 28, 2026
Artificial Intelligence and Machine Learning for De Novo Cancer Drug Discovery: A Systematic Review of Generative Design and Validation Gaps

This article has 4 authors:
1. Hashim Hashim
2. Fahad Abubakr
3. Mohamed Elhassadi
4. Ali Hasnain
This article has no evaluationsLatest version Dec 23, 2025

Discuss this preprint

Listed in

Abstract

Article activity feed

Related articles

Deep Learning Paradigm for Precision Lung Cancer Therapy with AI-Driven Genotype-Phenotype Mining and Patient-Derived Organoid Validation

Multi-Modal Ensemble Learning for TLR4 Binding Prediction: Addressing Data Scarcity and Leakage in Small Molecule Drug Discovery

Artificial Intelligence and Machine Learning for De Novo Cancer Drug Discovery: A Systematic Review of Generative Design and Validation Gaps