OAK

Quantile-based transformation of bulk RNA-seq into single-cell profiles

Metadata Downloads
Author(s)
Sinae Jeong
Type
Thesis
Degree
Master
Department
대학원 AI대학원
Advisor
Lee, Hyunju
Abstract
The increasing availability of single-cell RNA sequencing (scRNA-seq) data has enabled more detailed characterization of cellular states and facilitated the development
of powerful single-cell foundation models. However, scRNA-seq datasets annotated with
drug response information remain scarce, while bulk RNA-seq datasets from pan-cancer
resources provide matched pharmacogenomic profiles. Recent studies have employed transfer learning to infer single-cell drug sensitivities using bulk data. Nevertheless, the distributional discrepancy between bulk and single-cell data hinders effective knowledge
transfer and reduces the compatibility of bulk profiles with single-cell foundation models.
In this study, we propose scStyling, a quantile-based transformation framework that maps
bulk RNA-seq data into single-cell profiles, termed scStyleBulk. This transformation not
only bridges the distributional shift but also enhances the compatibility of bulk data with
single-cell foundation models. We demonstrate that scStyling consistently outperforms
existing approaches across seven independent single-cell datasets. Furthermore, scStyling
effectively aligns bulk and single-cell expression profiles, enabling accurate inference of
cell-level expression patterns from bulk data. This provides biologically meaningful insights, such as differential pathway activation associated with drug response patterns,
which only become apparent after transformation.|최근 단일세포 RNA 시퀀싱(Single-cell RNA-sequencing, scRNA-seq) 데이터 기술이 발전되면서 세포 상태에 대한 정밀한 특성 분석이 가능해졌습니다. 이를 기반으로 한 단 일세포 특화 파운데이션 모델(Foundation model)의 개발도 활발히 이루어지고 있습니다. 그러나 약물 반응 정보가 주석된 단일세포 데이터는 여전히 부족합니다. 반면, 벌크 RNA 시퀀싱(Bulk RNA-sequencing) 데이터는 범암종 수준의 약물 반응 정보를 포함하고 있 습니다. 이에 따라 최근 연구들은 벌크 데이터를 활용하여 단일세포 수준의 약물 반응을 예측하기 위한 전이 학습 기법을 제안했습니다. 하지만 벌크와 단일세포 데이터 간의 분포 차이로 인해 지식 전이가 효과적으로 이루어지기 어렵고 벌크 데이터는 단일세포 파운데 이션 모델과의 호환성에도 한계를 보입니다. 본 연구에서는 이러한 문제를 해결하고자 벌크 데이터를 단일세포 표현형으로 변환하 는 분위수 기반 변환 프레임워크인 scStyling을 제안합니다. scStyling을 통해 변환된 벌크 데이터를 scStyleBulk라 명명하였습니다. scStyling은 벌크와 단일세포 데이터 간의 분포 불일치를 해소할 뿐만 아니라 단일세포 기초 모델과의 호환성 또한 향상시킵니다. 다양한 독립 단일세포 데이터셋에 걸친 비교 실험을 통해 scStyleBulk를 이용해 학습한 모델이 원본 Bulk를 이용한 모델보다 예측 성능 면에서 일관되게 우수함을 확인하였습니다. 또한 scStyling은 벌크와 단일세포 간 발현 프로파일을 효과적으로 정렬하여 벌크 데이터로부터 세포 수준의 발현 양상을 유의미하게 추론할 수 있음을 입증하였습니다. 이를 통해 기존에 – iii – 는 식별되지 않던 약물 반응 관련 경로 활성화 차이를 규명할 수 있었으며 생물학적으로 유의미한 통찰을 제공함을 확인하였습니다.
URI
https://scholar.gist.ac.kr/handle/local/31946
Fulltext
http://gist.dcollection.net/common/orgView/200000900781
Alternative Author(s)
정시내
Appears in Collections:
Department of AI Convergence > 3. Theses(Master)
공개 및 라이선스
  • 공개 구분공개
파일 목록
  • 관련 파일이 존재하지 않습니다.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.