OAK

Reward-Guided MedSwinGPT for Biomedical Image Captioning

Metadata Downloads
Author(s)
Tepy Sokun Chriv
Type
Thesis
Degree
Master
Department
정보컴퓨팅대학 전기전자컴퓨터공학과
Advisor
Jeon, Moongu
Abstract
Biomedical image captioning has become a rapidly advancing research area aimed at supporting clinical workflows by automatically generating descriptive medical reports. However, existing models often suffer from hallucinations, where clinically incorrect findings are described, and semantic misalignment, where captions fail to reflect key visual cues. These issues largely arise from architectures trained on general-domain data, relying on a single encoder, or models lacking robust visual–textual grounding. To overcome these challenges, MedSwinGPT, a reward-guided dual-encoder prefix- fusion model is proposed. It integrates MedCLIP (medical domain encoder) and Swin Transformer (general visual encoder) through a single linear projection to capture complementary global and local visual information. The fused representation conditions BioGPT via prefix tokens, enabling domain-aware and semantically coherent caption generation. To strengthen visual–textual alignment, we jointly optimize Cross-Entropy (CE) and Contrastive Learning (CL) objectives, followed by Self-Critical Sequence Training (SCST) fine-tuning with a multi-objective reward combining BERTScore and contrastive similarity. Evaluated on the ROCO radiology dataset, our reward-guided MedSwinGPT surpasses existing baselines across standard metrics. Qualitative results further demonstrate improved clinical accuracy, semantic grounding, and reduced hallucinations, underscoring its potential for reliable biomedical caption generation.|의료 영상 캡셔닝은 자동으로 의학적 보고서를 생성하여 임상 워크플로우를 지원하는 빠르게 발전하는 연구 분야이다. 그러나 기존 모델들은 임상적으로 잘못된 소견을 기술하는 환각(hallucination) 문제나, 시각적 단서를 정확히 반영하지 못하는 의미적 불일치(semantic misalignment) 문제를 자주 겪는다. 이러한 문제들은 일반 도메인 데이터로 학습된 단일 인코더 기반 구조나, 견고한 시각–언어적 그라운딩(visual–textual grounding)이 부족한 모델에서 주로 발생한다. 이러한 한계를 극복하기 위해 본 연구에서는 MedSwinGPT라는 보상 기반(Reward-Guided) 이중 인코더 프리픽스 융합(prefix-fusion) 모델을 제안한다. 제안된 모델은 의료 도메인 인코더인 MedCLIP과 일반 시각 인코더인 Swin Transformer를 단일 선형 프로젝션으로 통합하여, 전역적(global) 및 국소적(local) 시각 정보를 상호 보완적으로 결합한다. 융합된 표현은 BioGPT의 프리픽스 토큰(prefix tokens)을 통해 조건화되어, 도메인에 특화되고 의미적으로 일관된 문장 생성을 가능하게 한다. 시각–언어적 그라운딩을 강화하기 위해, 본 연구는 Cross-Entropy(CE) 및 Contrastive Learning(CL) 손실을 공동 최적화(joint optimization)하였으며, 이후 Self-Critical Sequence Training(SCST) 을 적용하여 BERTScore와 대조 유사도(contrastive similarity)를 결합한 다중 보상 기반(multi-objective reward) 미세조정을 수행하였다. ROCO 방사선 영상 데이터셋에서의 실험 결과, 제안된 보상 기반 MedSwinGPT는 다양한 표준 평가 지표에서 기존 모델보다 우수한 성능을 보였다. 정성적 분석 또한 본 모델이 임상적 정확도와 의미적 정합성을 향상시키며, 환각을 감소시킴을 보여주었다. 이는 MedSwinGPT가 신뢰할 수 있는 의료 영상 캡셔닝을 위한 잠재력을 지니고 있음을 시사한다.
URI
https://scholar.gist.ac.kr/handle/local/33819
Fulltext
http://gist.dcollection.net/common/orgView/200000948285
공개 및 라이선스
  • 공개 구분공개
파일 목록
  • 관련 파일이 존재하지 않습니다.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.