Comparing Missing Data Imputation Methods for Patient-Reported Outcomes in Esophageal Cancer Research

Yong Jin Kweon
Yousif Salman
Shayan Dhillon
Mehrnoush Dehghani
Emad A. Mohammed
R. Trafford Crump

Read the full article

Discuss this preprint

Start a discussion What are Sciety discussions?

Listed in

This article is not in any list yet, why not save it to one of your lists.

Abstract

Missing data is common in patient-reported outcomes (PRO) research, particularly in oncology settings. We evaluated seven methods for handling missing data in esophageal cancer quality of life measurements, namely: Multiple Imputation by Chained Equations (MICE), Variational Autoencoder (VAE), Denoising Autoen-coder (DAE), Bayesian Principal Component Analysis (BPCA), a deep autoencoder method with patient-specific embeddings and temporal pattern modeling, SoftImpute (a matrix completion method using iterative soft-thresholded singular value decomposition), and K-Nearest Neighbors (KNN). Using data from McGill University’s Esophageal and Gastric Data- and Bio-Bank, we compared these methods across 44 Functional Assessment of Cancer Therapy-Esophageal (FACT-E) quality-of-life variables on execution time, distribution preservation, correlation maintenance, imputation accuracy, and clinical classification performance. Our comprehensive validation framework provides evidence-based recommendations for selecting appropriate imputation methods for esophageal cancer PRO research, which may improve the validity and reliability of research findings in this domain.

Version published to 10.1101/2025.09.10.25335531 on medRxiv
Sep 12, 2025

Missing Data in OHCA Registries: How Multiple Imputation Methods Affect Research Conclusions—Paper II

This article has 4 authors:
1. Stella Jinran Zhan
2. Seyed Ehsan Saffari
3. Marcus Eng Hock Ong
4. Fahad Javaid Siddiqui
This article has no evaluationsLatest version Jan 16, 2026
Bayesian Network Structure Learning from Incomplete Breast Cancer Data Using Structural Expectation–Maximization

This article has 3 authors:
1. Navaee Lavasani Monireh
2. Rezaeitabar Vahid
3. Khayamzadeh Maryam
This article has no evaluationsLatest version Dec 10, 2025
Generative AI-Based Imputation to Preserve Data Fidelity and Enhance Outcome Prediction: A Multi-Institutional Study in Cardiac Surgery

This article has 11 authors:
1. Negin Maddah
2. Amin Ramezani
3. Qingchu Jin
4. Jakob Wollborn
5. Akinobu Itoh
6. Jaime B. Rabb
7. Felistas Mazhude
8. Robert S. Kramer
9. Douglas B. Sawyer
10. Raimond L. Winslow
11. Farhad R. Nezami
This article has no evaluationsLatest version Jan 23, 2026

Discuss this preprint

Listed in

Abstract

Article activity feed

Related articles

Missing Data in OHCA Registries: How Multiple Imputation Methods Affect Research Conclusions—Paper II

Bayesian Network Structure Learning from Incomplete Breast Cancer Data Using Structural Expectation–Maximization

Generative AI-Based Imputation to Preserve Data Fidelity and Enhance Outcome Prediction: A Multi-Institutional Study in Cardiac Surgery