Robust Perception and Trajectory Forecasting for Autonomous Navigation in the Wild
- Author(s)
- Seongju Lee
- Type
- Thesis
- Degree
- Doctor
- Department
- 정보컴퓨팅대학 AI융합학과(지능로봇프로그램)
- Advisor
- Lee, Kyoobin
- Abstract
- Achieving reliable autonomous operation in unstructured, “in-the-wild” environments remains a persistent challenge due to adverse conditions, sensor degradation, and severe domain shifts. Conventional autonomy pipelines, largely optimized for structured settings, suffer from cascading error propagation, where localized perception failures amplify downstream uncertainty and compromise decision-making. This dissertation addresses this problem by studying robustness as a pipeline-level property and introducing learning-based models for the core components of autonomous navigation.
First, for domain-generalized semantic segmentation (DGSS), we propose the Deformable Bottleneck Adapter (DeBA), a parameter-efficient fine-tuning (PEFT) framework that integrates deformable convolutions into lightweight bottleneck adapters at both backbone and feature-pyramid levels (DeBA-BB/FP). By employing geometric characteristics that remain stable across domain shifts, DeBA refines Vision Foundation Model (VFM) features and mitigates performance degradation caused by geometric distortions, achieving state-of-the-art performance across multiple DGSS benchmarks.
Second, to address geometric and sensing uncertainty in low-visibility conditions, we present CRaFT (Camera–Radar Fusion with Lift-Splat and Radar-guided Modulation) for robust bird’s-eye-view (BEV) object detection. CRaFT employs radar-guided modulation to suppress depth-induced artifacts in camera-derived BEV features while enhancing the semantic quality of radar BEV representations. This fusion design yields consistent gains under adverse weather and unstructured maritime scenarios.
Third, to model behavioral uncertainty arising from complex multi-agent interactions, we introduce MART (MultiscAle Relational Transformer), a hypergraph transformer that jointly captures pair-wise and group-wise dynamics. Its core component, the Adaptive Group Estimator (AGE), infers dynamic, overlapping interaction groups via adaptive thresholds, achieving state-of-the-art trajectory forecasting accuracy with strong computational efficiency on highly interactive datasets.
Finally, we integrate the proposed perception and forecasting modules into a diffusion-based local path planner to analyze how upstream robustness propagates to downstream decision-making performance. In this framework, perception priors derived from DeBA and CRaFT are injected into the planner, while multimodal future trajectories predicted by MART condition the diffusion process. Experimental results demonstrate improved collision avoidance and path adherence, validating pipeline-level robustness for autonomous navigation in challenging in-the-wild environments.|비정형 야외 환경(“in-the-wild”)에서의 자율 시스템 운용은 악조건, 센서 열화, 그리고 심각한 도메인 변화로 인해 여전히 해결되지 않은 도전 과제로 남아 있다. 정형화된 환경을 가정하여 설계된 기존 자율주행 파이프라인은 이러한 조건에서 국소적인 인식 오류가 하위 단계로 전파되며 의사결정을 저해하는 연쇄적 오류 전파 현상을 겪는다. 본 학위논문은 이러한 문제를 해결하기 위해 강건성을 개별 모듈의 성능이 아닌 파이프라인 레벨 속성으로 정의하고, 이를 구현하기 위한 자율주행의 핵심 구성 요소에 대한 학습 기반 모델을 제안한다.
먼저, 도메인 일반화 의미론적 분할을 위해 Deformable Bottleneck Adapter (DeBA)를 제안한다. DeBA는 경량 병목 어댑터 구조에 변형 가능한 합성곱 연산을 통합한 파라미터 효율적 미세조정 기법으로, 백본 및 피처 피라미드 레벨(DeBA-BB/FP)에서 도메인 변화에도 비교적 안정적인 기하학적 특성을 반영하도록 설계되었다. 이를 통해 비전 파운데이션 모델의 특징을 정제하고, 다양한 도메인 변화 하에서 기하학적 열화로 인한 성능 저하를 효과적으로 완화하여 다수의 도메인 일반화 의미론적 분할 벤치마크에서 최고 수준의 성능을 달성한다.
다음으로, 저가시성 환경에서의 기하학적 및 센싱 불확실성을 해결하기 위해 강건한 3차원 조감도 객체 탐지를 위한 CRaFT(Camera–Radar Fusion with Lift-Splat and Radar-guided Modulation)를 제안한다. CRaFT는 레이더 유도 변조를 통해 카메라 기반 조감도 특징의 깊이 기반 아티팩트를 억제하는 동시에, 카메라 정보를 활용하여 레이더 조감도 특징의 의미론적 품질을 향상시킨다. 이러한 양방향 융합 구조는 악천후 및 비정형 해양 환경 데이터셋에서 일관된 성능 향상을 보인다.
또한, 복잡한 다중 에이전트 상호작용으로 인한 행동 불확실성을 모델링하기 위해 MART(MultiscAle Relational Transformer)를 제안한다. MART는 하이퍼그래프 트랜스포머 구조를 기반으로 개별 에이전트 간의 쌍별 관계와 그룹 단위 상호작용을 공동으로 학습한다. 핵심 구성 요소인 Adaptive Group Estimator (AGE)는 적응형 임계값을 통해 동적으로 중첩 가능한 상호작용 그룹을 추론하며, 상호작용이 복잡한 데이터셋에서 높은 예측 정확도와 계산 효율성을 동시에 달성한다.
마지막으로, 제안한 인식 및 예측 모듈들을 확산 기반 로컬 경로 계획기에 통합하여 상위 단계의 강건성이 실제 의사결정 성능으로 어떻게 전달되는지를 분석한다. 이 통합 프레임워크에서 DeBA와 CRaFT로부터 도출된 인식 사전 정보는 경로 계획기에 주입되며, MART가 예측한 다중 모달 미래 궤적은 확산 과정의 조건으로 활용된다. 실험 결과, 제안한 접근 방식은 충돌 회피 및 경로 추종 성능에서 유의미한 향상을 보이며, 비정형 야외 환경에서의 자율 시스템을 위한 파이프라인 수준의 강건성을 입증한다.
- URI
- https://scholar.gist.ac.kr/handle/local/33822
- Fulltext
- http://gist.dcollection.net/common/orgView/200000941564
- 공개 및 라이선스
-
- 파일 목록
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.