OAK

Development of an Efficient Training Framework for Deep Neural Networks using Knowledge Transfer Dongha Choi College of Information and Computing Gwangju Institute of Science and Technology

Metadata Downloads
Author(s)
Dongha Choi
Type
Thesis
Degree
Doctor
Department
정보컴퓨팅대학 AI융합학과
Advisor
Lee, Hyunju
Abstract
심층 신경망은 대규모 사전훈련과 방대한 데이터 자원에 힘입어 텍스트, 비전, 멀 티모달 과제 등 다양한 영역에서 괄목할 만한 성과를 거두었다. 그러나 이러한 고비용 파이프라인에 대한 의존도는 효율적이고 접근 가능한 모델 개발에 상당한 제약을 초래 한다. 더 나아가 새로운 구조, 도메인, 혹은 수행 환경에 대한 모델의 제한된 적응력은 이러한 문제를 더욱 가중시킨다. 본 논문은 이러한 도전 과제를 해결하기 위해 지식 전이, 특히 지식 증류를 단순한 모델 압축 기법에서 확장하여, 효율적 학습을 위한 체계적 방법론으로서 탐구한다. 본 논문의 중심 주장은 지식 증류를 단순히 큰 모델에서 작은 모델로 용량을 이전하는 과정으로 보는 것이 아니라, 모델이 이미 가지고 있는 전문적인 지식을 활용하여 동등하거나 더 발전된 모델을 학습시키는 다재다능한 메커니즘으로 재해석해야 한다는 데 있다.
첫 번째 연구에서는 기존의 도메인-특화 사전훈련 언어 모델로부터 도메인 특화 지식을 범용 사전훈련 모델로 이전하는 프레임워크인 DoKTra를 제안한다. 자원 소모가 큰 도메인 내 사전훈련을 수행하는 대신, 이 방법은 도메인 특화 교사 모델(예: BioBERT) 의 전문 지식을 범용이면서도 더 발전된 학생 모델(예: RoBERTa)로 이전한다. 활성 경 계 증류 기법과 엔트로피 정규화를 활용함으로써, 이 프레임워크는 학생 모델이 생의학, 임상, 금융 분야의 다운스트림 태스크에서 교사 모델과 유사하거나 더 뛰어난 성능을 달 성하도록 한다. 이 연구는 반복적인 사전훈련 단계 없이도, 파인튜닝 규모에서 효율적인 도메인 전이가 가능함을 보여준다.
두 번째 연구는 첫 번째 연구의 원리에 기반하여 지식 전이를 멀티모달 환경으로 확장한다. TransferCVLM 프레임워크는 단일모달 사전훈련 모듈들을 크로스모달 융합 컴포넌트와 결합하여 조합적 비전-언어 모델(CVLM)을 구축한다. 이후 지식 증류를 적 용하여 사전훈련된 비전-언어 교사 모델의 크로스모달 상호작용 지식을 새롭게 구성한 CVLM으로 전이한다. 결과 모델은 유사한 규모의 기존 VLM과 경쟁력 있는 성능을 보 일 뿐만 아니라, 다운스트림 작업 전반에서 교사 모델을 지속적으로 능가한다. 특히 이 접근 방식은 기존 멀티모달 사전훈련 대비 약 6%의 비용만으로 학습을 수행할 수 있어, 효율성과 확장성을 모두 확보한다.
종합적으로, 본 논문에서 제시하는 연구들은 지식 증류가 지식 전이를 위한 다재다 능한 방법론임을 입증한다. 실증적 기여와 더불어, 본 논문은 신경망 학습에서 증류의 전통적 역할을 확장하는 이론적 관점과 실용적 프레임워크를 제시한다.연구결과는 지식 전이가 추가 사전훈련에 드는 높은 비용을 대체할 수 있으며, 데이터가 제한된 환경에서도 신뢰할 수 있는 전략임을 보여준다. 본 논문의 기여는 다양한 도메인과 모달리티에 걸쳐 확장 가능하고 적응적이며 자원 효율적인 학습 방법론을 탐구하는 향후 연구의 기반이 될 수 있을 것이다.|Deep neural networks have achieved remarkable progress across domains such as text, vision, and multimodal tasks, largely driven by large-scale pre-training and extensive data resources. However, reliance on such costly pipelines presents significant challenges for efficient and accessible model development. These challenges are amplified by the limited adaptability of models to new architectures, domains, or deployment environments. To address these challenges, this dissertation investigates knowledge transfer—particularly knowledge distillation—as a systematic methodology for efficient training, extending beyond its conventional role in model compression. The central thesis is that knowledge distillation should not merely be viewed as transfer- ring capacity from a larger to a smaller model, but rather as a versatile mechanism for leveraging pre-existing expertise to train equal or even more advanced models.
The first study presents DoKTra, a framework for transferring domain-specific knowledge from existing domain-pretrained language models to general-domain pre-trained models. Instead of conducting resource-intensive in-domain pre-training, this method transfers specialized knowledge from a domain-specific teacher model (e.g., BioBERT) to a general-domain, advanced student model (e.g., RoBERTa). By employing activation boundary distillation and entropy regularization, the framework enables the student to achieve comparable or even superior performance to the teacher across biomedical, clinical, and financial downstream tasks. This study demonstrates that efficient domain transfer can be achieved at the scale of fine-tuning, eliminating the need for repeated pre-training stages.
Building on the principles of the first study, the second study extends the knowledge transfer paradigm to multimodal settings. The TransferCVLM framework constructs a combinative vision-language model (CVLM) by integrating unimodal pretrained modules with a cross-modal fusion component. Knowledge distillation is then applied to transfer cross-modal interaction knowledge from a pretrained vision-language teacher model into the newly constructed CVLM. The resulting model not only achieves competitive performance with existing VLMs of similar size but also consistently outperforms the teacher in downstream tasks. Importantly, this approach reduces training costs to a fraction—approximately 6%—of conventional multimodal pre-training, offering both efficiency and scalability.
Collectively, the studies presented in this dissertation establish knowledge distillation as a versatile methodology for knowledge transfer. In addition to their empirical contributions, they offer theoretical perspectives and practical frameworks that broaden the conventional role of distillation in neural network training. The results demonstrate that knowledge transfer can effectively improve models of comparable or greater capacity, providing a feasible alternative to costly additional pre-training and a reliable strategy in data-limited settings. The contributions of this dissertation may serve as a foundation for future exploration of scalable, adaptable, and resource-conscious training methodologies across diverse domains and modalities.
URI
https://scholar.gist.ac.kr/handle/local/33716
Fulltext
http://gist.dcollection.net/common/orgView/200000937956
Alternative Author(s)
최동하
Appears in Collections:
Department of AI Convergence > 4. Theses(Ph.D)
공개 및 라이선스
  • 공개 구분공개
파일 목록
  • 관련 파일이 존재하지 않습니다.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.