Evaluating Fidelity and Machine Learning Utility of Synthetic Tabular Data Generated Using Generative Models

Aaditya Kumar Dhaka
Apash Roy
S Shrivallabha

Read the full article

Discuss this preprint

Start a discussion What are Sciety discussions?

Listed in

This article is not in any list yet, why not save it to one of your lists.

Abstract

Synthetic tabular data offers a promising solution for enabling privacy-preserving machine learning in sensitive domains such as healthcare. However, assessing the fidelity and utility of such data remains challenging. In this study, we evaluate four generative models—CTGAN, TVAE, Gaussian Copula, and CopulaGAN—on a benchmark dataset for stroke prediction. We propose a two-phase generation and evaluation framework that combines statistical diagnostics with feature-level fidelity analysis and downstream classification performance. Our findings highlight significant variation across models, with TVAE and Gaussian Copula achieving superior fidelity and generalization. The results demonstrate that high structural similarity does not always guarantee practical machine learning utility.

Version published to 10.21203/rs.3.rs-7287372/v1 on Research Square
Sep 17, 2025

A Multidimensional Evaluation of Privacy-Preserving Generative Models for Neonatal Clinical Tabular Data: Fidelity, Utility, and Realism Trade-offs

This article has 5 authors:
1. Tb Ai Munandar
2. Tyastuti Sri Lestari
3. Achmad Noe’man
4. Alimuddin Alimuddin
5. Ria Arafiyah
This article has no evaluationsLatest version Jan 21, 2026
Evaluating the Utility of Synthetic Image Generation for Medical AI: A Review

This article has 3 authors:
1. Israa Atike
2. Asifa Mehmood Qureshi
3. Abhishek Kaushik
This article has no evaluationsLatest version Dec 22, 2025
Enhancing Logistic Regression Performance Through Hyperparameter Tuning: A Comparative Evaluation Across Datasets

This article has 7 authors:
1. Mueed Ahmad
2. Noman Javed
3. Awais Muzafar
4. Mateen Muzafar
5. Hadia Naseer
6. Guantian Huang
7. Dianning He
This article has no evaluationsLatest version Jan 9, 2026

Discuss this preprint

Listed in

Abstract

Article activity feed

Related articles

A Multidimensional Evaluation of Privacy-Preserving Generative Models for Neonatal Clinical Tabular Data: Fidelity, Utility, and Realism Trade-offs

Evaluating the Utility of Synthetic Image Generation for Medical AI: A Review

Enhancing Logistic Regression Performance Through Hyperparameter Tuning: A Comparative Evaluation Across Datasets