Deciphering Cancer Subtypes with Gene Transformer Network
- Abstract
- Cancer and its subtypes constitute approximately 30% of all causes of death globally and display a wide range of heterogeneity in terms of clinical and molecular responses to therapy. Molecular subtyping has enabled the use of precision medicine to overcome these challenges and provide significant biological insights to predict prognosis and improve clinical decision-making. Over the past decade, conventional machine learning (ML) algorithms and deep learning (DL) based networks have been widely espoused for the classification of cancer subtypes from gene expression datasets. However, these methods lag in taking complete advantage of high throughput next-generation sequencing (NGS) technologies and seem potentially bias towards the identification of cancer markers. Hence, we propose an end-to-end deep learning approach, Gene Transformer, which addresses the complexity of high-dimensional gene expression with a multi-head self-attention module by identifying relevant biomarkers across multiple cancer subtypes without requiring feature selection as a prerequisite for the current classification algorithms. The proposed Gene Transformer is evaluated on two publicly available datasets to classify expression profiles of various cancer subtypes. Comparative analysis reveals that the proposed Gene Transformer outperformed the commonly used traditional classification algorithms and can be considered as an efficient approach for classifying cancer subtypes, indicating that any improvement in deep learning models in computational biologists can be reflected well in this domain as well.|암과 그 아형은 전 세계적으로 모든 사망 원인의 약 30%를 차지하며 치료에 대한 임상 및 분자 반응 측면에서 광범위한 이질성을 나타낸다. 분자 진단은 이러한 문제를 극복하기 위해 정밀 의학의 사용을 가능하게 했으며 예후를 예측하고 임상 의사 결정을 개선하는 데 중요한 생물학적 통찰력을 제공한다. 지난 10년 동안 유전자 발현 데이터 세트에서 암 아형을 분류하기 위해 기존의 머신러닝 알고리즘과 딥러닝 기반 네트워크가 널리 지지되어 왔다. 그러나 이러한 방법은 처리량이 많은 차세대 염기서열 분석 기술을 완전히 활용하는 데 뒤떨어져 있으며 잠재적으로 암 마커의 식별에 편향된 것으로 보인다. 따라서 현재 분류 알고리즘의 전제조건으로 기능 선택을 요구하지 않고 여러 암 아형에서 관련 바이오마커를 식별함으로써 다중 헤드 자가 주의 모듈로 고차원 유전자 발현의 복잡성을 해결하는 종단 간 딥러닝 접근법인 유전자 변형기를 제안한다. 제안된 유전자 변형기는 다양한 아형의 발현 프로파일을 분류하기 위해 공개적으로 사용 가능한 두 개의 데이터 세트에서 평가된다. 비교 분석에 따르면 제안된 유전자 변형기는 일반적으로 사용되는 기존 분류 알고리즘을 능가하며 암 아형을 분류하기 위한 효율적인 접근 방식으로 간주될 수 있으며, 이는 계산 생물학자의 딥러닝 모델의 개선이 이 영역에도 잘 반영될 수 있음을 나타낸다.
- Author(s)
- Anwar Khan
- Issued Date
- 2022
- Type
- Thesis
- URI
- https://scholar.gist.ac.kr/handle/local/19054
- 공개 및 라이선스
-
- 파일 목록
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.