OAK

Robust Neural Network Adaptation: Addressing Label Noise and Domain Gap

Metadata Downloads
Author(s)
Yeonguk Yu
Type
Thesis
Degree
Doctor
Department
정보컴퓨팅대학 AI융합학과(지능로봇프로그램)
Advisor
Lee, Kyoobin
Abstract
This dissertation investigates the challenges that artificial intelligence (AI) systems face when deployed in real-world environments, where the conditions often differ significantly from those assumed during training. In such scenarios, models may encounter out-of-distribution (OOD) inputs, corrupted training data with noisy labels, and continuously changing environments that require continual adaptation. These factors can severely degrade model reliability and generalization. To address these challenges, this research explores a series of methods that improve the adaptability, robustness, and continual learning capability of AI systems.

The first contribution presents a jigsaw puzzle-based OOD detection framework. This study reveals that the norm of feature maps extracted from intermediate blocks, rather than the final layer, can serve as a more effective indicator for OOD detection. To quantify this, we propose two metrics—FeatureNorm and NormRatio—to measure the separation between in-distribution (ID) and OOD samples across network blocks. Using jigsaw puzzles as pseudo-OOD samples generated from ID data, the proposed method identifies the most discriminative block and achieves superior OOD detection performance compared to existing baselines.

The second contribution introduces a paired-view augmentation-based test-time adaptation (TTA) method, termed DPLOT (Domain-specific block selection and paired-view Pseudo-Labeling for Online Test-Time adaptation). DPLOT consists of two core components: domain-specific block selection and paired-view pseudo-label generation. By using simple flip augmentation, the method effectively mitigates pseudo-label degradation caused by domain gaps while maintaining efficient adaptation. Extensive experiments on CIFAR10-C, CIFAR100-C, and ImageNet-C demonstrate that DPLOT consistently outperforms prior TTA approaches.

The third contribution proposes CUFIT, a parameter-efficient fine-tuning strategy designed for learning with noisy labels. CUFIT introduces a curriculum fine-tuning framework for Vision Foundation Models (VFMs) in medical image classification. The method begins with robust linear probing, which remains less affected by noisy samples, followed by progressive fine-tuning of lightweight adapters using clean samples identified in the initial stage. Experimental evaluations show that CUFIT achieves superior performance over existing noisy-label learning methods across various medical imaging datasets.

Finally, the dissertation proposes CA-VLA (Continual Adaptation of Vision-Language-Action model), a continual learning framework for robotic systems. The framework operates in three iterative steps: (1) task execution via the VLA model, (2) success detection using a vision-language evaluator, and (3) re-training on successful trajectories. Through repeated adaptation, CA-VLA incrementally enhances the action policy and demonstrates continual improvement during deployment.

Together, these contributions provide a foundation for developing AI systems that are robust to real-world challenges by addressing out-of-distribution inputs, test-time continual learning, and training under noisy labels. Building on these findings, our future goal is to develop a continual learning framework for robots—specifically for action policy and vision-language-action (VLA) models—that can learn and adapt in a human-like manner.|본 학위 논문은 인공지능(AI) 시스템이 실제 환경에서 배치(deployment)될 때 직면하는 일반화(generalization) 및 적응(adaptation) 문제를 다루고자 한다. 실제 환경에서는 학습 시점과 상이한 분포의 입력(out-of-distribution, OOD) 데이터를 처리해야 하거나, 노이즈가 포함된 잘못된 라벨(noisy label)을 학습 데이터로 사용해야 하는 경우가 빈번하게 발생한다. 또한 환경이 지속적으로 변화하기 때문에, AI 시스템은 배포 이후에도 스스로 성능을 개선할 수 있는 지속 학습(continual learning) 능력을 갖추어야 한다. 이러한 요인들은 모델의 신뢰도와 일반화 성능을 심각하게 저하시킬 수 있다. 본 연구는 이러한 한계를 극복하기 위해, 실제 환경에서도 적응력이 있고 신뢰성 있는 AI 시스템을 구축하기 위한 다양한 학습 방법을 제안한다.

첫 번째 연구에서는 직소 퍼즐(jigsaw puzzle) 기반의 OOD 탐지 기법을 제안한다. 본 연구는 최종 블록이 아닌 중간 블록에서 추출된 피처 맵(feature map)의 노름(norm)이 OOD 탐지에 더 효과적인 지표가 확인 한 것으로부터 시작되었다. 이를 방법론에 적용하기 위해 FeatureNorm과 NormRatio(학습 이미지와 직소 퍼즐 이미지에 대한 FeatureNorm 비율)를 정의하여 각 블록의 OOD 탐지 성능을 평가하고, 학습 데이터로부터 생성한 직소 퍼즐 (가상의 OOD) 샘플을 활용하여 가장 구분력이 높은 블록을 선택하였다. 선택된 블록을 기반으로 한 FeatureNorm 기반 탐지는 기존의 OOD 탐지 방법보다 우수한 성능을 보였다.

두 번째 연구에서는 좌우 시점 증강(paired-view augmentation) 기반의 테스트 시점 적응(Test-Time Adaptation, TTA) 기법인 DPLOT(Domain-specific block selection and paired-view Pseudo-Labeling for Online Test-Time adaptation)을 제안한다. DPLOT은 (1) 도메인 특화 블록 선택과 (2) 좌우 시점 이미지 기반의 의사 라벨(pseudo-label) 생성을 핵심 구성요소로 한다. 단순한 좌우 반전(flip) 증강만을 사용함으로써, 강한 증강으로 인한 도메인 간 격차를 줄이고 생성된 라벨 품질 저하를 방지하였다. CIFAR10-C, CIFAR100-C, ImageNet-C 등 다양한 벤치마크에서 DPLOT은 기존 TTA 기법 대비 우수한 성능을 달성하였다.

세 번째 연구에서는 노이즈 라벨 학습(Learning with Noisy Labels)를 위해 CUFIT(Curriculum Fine-Tuning)이라는 비전 기초 모델(Vision Foundation Model, VFM) 기반의 커리큘럼 미세조정 기법을 제안한다. 본 방법은 노이즈에 덜 민감한 선형 학습(linear probing) 단계를 통해 깨끗한 샘플을 선별하고, 이후 두 개의 어댑터(adapter)를 점진적으로 미세조정(fine-tuning)하는 커리큘럼 학습을 수행한다. 의료 영상 데이터셋을 포함한 다양한 환경에서 CUFIT은 기존 방법들에 비해 높은 성능을 보였다.

마지막으로, 비전-언어-행동(Vision-Language-Action, VLA) 모델 기반의 지속 학습 프레임워크인 CA-VLA(Continual Adaptation of Vision-Language-Action model)를 제안한다. 제안된 프레임워크는 (1) 언어 지시를 기반으로 한 VLA의 행동 수행, (2) 비전-언어 모델을 이용한 성공 궤적(successful trajectory) 판별, (3) 성공 궤적을 이용한 재학습의 세 단계를 반복적으로 수행한다. 이러한 학습 과정을 통해 VLA 모델의 행동 전문가(action expert)가 지속적으로 향상됨을 확인하였다.

본 논문에서 제안한 연구들은 실제 환경에서도 견고하고 적응적이며 지속적으로 학습 가능한 인공지능 시스템을 구축하기 위한 통합적 기반을 제공한다. 나아가 본 연구는 불확실성을 인식하고, 스스로 극복하며, 불완전한 데이터로부터 효과적으로 학습할 수 있는 인간과 유사한 학습을 하는 인공지능 로봇의 실현을 향한 발판을 기대한다.
URI
https://scholar.gist.ac.kr/handle/local/33821
Fulltext
http://gist.dcollection.net/common/orgView/200000939594
Alternative Author(s)
유연국
Appears in Collections:
Department of AI Convergence > 4. Theses(Ph.D)
공개 및 라이선스
  • 공개 구분공개
파일 목록
  • 관련 파일이 존재하지 않습니다.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.