Synthetic Electronic Health Records: A Comparative Study of Generative Models and Their Practical Utility
- Author(s)
- JinGyu Park
- Type
- Thesis
- Degree
- Master
- Department
- 정보컴퓨팅대학 AI융합학과
- Advisor
- Kim, Mansu
- Abstract
- 합성 전자의무기록(EHR)은 희귀 질환이나 중대한 합병증으로 인해 발생하는 심각한 클래스 불균형 문제를, 소수 클래스 사례를 보강하고 데이터 다양성을 확장함으로써 완화할 수 있다. 이러한 고도로 불균형한 환경에서는 원본 데이터로 학습된 예측 모델이 대다수 클래스에 편향되기 쉬우며, 그 결과 학습의 불안정성, 일반화 및 재현성 저하, 그리고 임상적으로 의미 있는 패턴을 포착하는 능력의 제한이 발생한다. 본 논문은 MIMIC-III ICU 데이터를 사용하여 초기 ICU 구간의 정형(tabular) 코호트를 구성하고, 보간 기반 오버샘플링, VAE 기반 모델링, GAN 기반 합성, 잠재 확산(latent diffusion) 기반 생성에 해당하는 대표적 접근법인 SMOTE, TVAE, CTGAN, TABSYN을 비교·분석한다. 또한 임상적으로 의미 있는 두 가지 이진 예측 과제인 재원 중 사망(in-hospital mortality)과 급성 호흡부전(ARF)을 대상으로 평가를 수행한다.
본 연구는 합성 데이터 품질을 통계적 충실도와 다운스트림 효용이라는 두 축에서 상보적으로 평가한다. 충실도는 연속형 변수에 대해 Wasserstein Distance(WD)와 Maximum Mean Discrepancy(MMD)를, 범주형 변수에 대해 Kullback–Leibler Divergence(KLD)와 Jensen–Shannon Divergence(JSD)를 사용하여 실제 분포와 합성 분포의 유사성을 비교한다. 효용은 표준 분류 지표(F1, AUROC, AUPR, accuracy)와 함께 Train-on-Synthetic, Test-on-Real(TSTR) 및 Train-on-Real, Test-on-Synthetic(TRTS) 프로토콜로 측정하여, 이를 통해 실제 데이터에 대한 대체 가능성과 대표성을 모두 확보할 수 있다.
두 과제 전반에서 본 실험 설정에서는 SMOTE가 가장 강한 종합 성능을 보였으며, 이는 초기 ICU 사망과 ARF가 비교적 구조화된 예측 신호를 갖는다는 점을 반영한 결과로 해석한다. 딥 생성 모델 중에서는 TABSYN이 가장 높은 효용을 보이며 TVAE와 CTGAN을 상회했고, 구조적 특성과 다양성 사이에서 더 나은 균형을 유지하였다. 마지막으로 본 연구의 한계와 향후 과제로서, 도메인 시프트 하에서 다기관·다데이터셋 검증, 복잡한 변수 관계를 갖는 더 폭넓은 다운스트림 과제로의 확장, 집계 스냅샷에서 전체 종단(시계열) ICU 궤적으로의 확장, 그리고 임상의 참여 기반의 정성 평가를 통한 임상적 타당성과 해석가능성 강화가 필요함을 제시한다.|Synthetic Electronic Health Records (EHRs) can mitigate severe class imbalance arising from rare diseases and critical complications by augmenting scarce minority-class cases and increasing data diversity. In such highly imbalanced settings, predictive models trained on the original data often become biased toward the majority class, leading to unstable learning, reduced generalization and reproducibility, and a limited ability to capture clinically meaningful patterns. In this thesis, we study synthetic tabular EHR generation using the MIMIC-III ICU database, constructing an early-ICU cohort and benchmarking four representative approaches—SMOTE, TVAE, CTGAN, and TABSYN—spanning interpolation-based oversampling, VAE-based modeling, GAN-based synthesis, and latent diffusion–based generation. We consider two clinically meaningful binary prediction tasks: in-hospital mortality and acute respiratory failure (ARF).
We evaluate synthetic data quality along two complementary dimensions: statistical fidelity and downstream utility. Fidelity is measured by comparing real and synthetic distributions using Wasserstein Distance (WD) and Maximum Mean Discrepancy (MMD) for continuous variables, and Kullback–Leibler Divergence (KLD) and Jensen–Shannon Divergence (JSD) for categorical variables. Utility is assessed using Train-on-Synthetic, Test-on-Real (TSTR) and Train-on-Real, Test-on-Synthetic (TRTS) protocols with standard classification metrics (F1, AUROC, AUPR, and accuracy), thereby capturing both replaceability and representativeness relative to real data.
Across both tasks, SMOTE achieves the strongest overall performance in our experimental setting, which we interpret as reflecting the comparatively structured predictive signals of early-ICU mortality and ARF. Among deep generative models, TABSYN provides the best utility, outperforming TVAE and CTGAN while maintaining a better balance between structural characteristics and diversity. Finally, we identify limitations and future directions: validating findings across multiple institutions and datasets under domain shift, extending evaluation to broader downstream tasks emphasizing complex variable relationships, moving from aggregated snapshots to full longitudinal ICU trajectories, and incorporating clinician-in-the-loop qualitative assessments to strengthen clinical validity and interpretability.
- URI
- https://scholar.gist.ac.kr/handle/local/33844
- Fulltext
- http://gist.dcollection.net/common/orgView/200000952889
- 공개 및 라이선스
-
- 파일 목록
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.