Towards Real-World Object Recognition: From Super-Resolution to Cross-Domain and Cross-Modality
- Author(s)
- Seongmin Hwang
- Type
- Thesis
- Degree
- Doctor
- Department
- 정보컴퓨팅대학 AI융합학과
- Advisor
- Jeon, Moongu
- Abstract
- Robust visual perception in real-world environments remains a fundamental challenge due to three inherent limitations of sensory data: low resolution, domain inconsistency, and modality disparity. These challenges are particularly critical in safetysensitive applications such as surveillance, autonomous driving, and defense systems, where reliable object recognition must be sustained under diverse and unpredictable conditions.
This dissertation presents a unified research effort toward improving real-world object recognition across three complementary directions: (1) efficient super-resolution for tiny object recognition, (2) domain-generalized detection under real-world domain shifts, and (3) infrared-centric fusion for multispectral object detection. First, an efficient super-resolution framework is proposed to restore discriminative structures of small objects using kernel-attentive depthwise operations. The method achieves both computational efficiency and high reconstruction fidelity, enabling lightweight enhancement in embedded perception systems. Second, a Domain Generalized Detection Transformer (DG-DETR) is developed to enhance robustness against unseen domains. By combining wavelet-guided perturbation and domain-agnostic query selection, DG-DETR improves detection consistency across adverse weather and corruption scenarios. Finally, an Infrared-Centric Fusion (IC-Fusion) framework is introduced for multispectral detection. Through asymmetric design and cross-modal gating mechanisms, IC-Fusion effectively integrates thermal and visual cues while maintaining high efficiency.
Extensive experiments across diverse benchmarks demonstrate that the proposed methods significantly enhance recognition accuracy and robustness under real-world conditions. Collectively, these studies contribute to advancing the reliability, generalization, and efficiency of visual perception systems, marking a step toward practical and scalable robust object recognition.|실세계 환경에서의 강인한 시각 인식은 여전히 컴퓨터 비전 분야에서 해결되지 않은 근본적인 도전 과제로 남아 있다. 이는 딥러닝 기반 인식 시스템에서 센서 데이터가 본 질적으로 가지는 세 가지 한계, 즉 저해상도, 도메인 불일치, 그리고 모달리티 간 격차 때문이다. 이러한 문제는 감시, 자율주행, 국방 시스템과 같이 안전이 중요한 응용 분 야에서 특히 치명적이며, 다양한 환경 변화 속에서도 신뢰할 수 있는 객체 인식 성능이 유지되어야 한다.
본 논문은 이러한 문제를 해결하기 위해, 실세계 객체 인식의 강건성을 향상시키는세 가지 상호보완적 연구를 제안한다. (1) 효율적 초해상도 기반 미소 객체 인식에서는 커널 어텐션 기반 깊이분리합성곱 연산을 통해 작은 객체의 구조적 특징을 복원하면서도 연산 효율성을 확보하였다. (2) 도메인 일반화 객체 검출 연구에서는 웨이블릿 기반 특징증강 방법과 도메인 불변 쿼리 선택 기법을 결합하여, 악천후나 이미지 왜곡 등 실세계 환경 변화에도 일관된 검출 성능을 달성하였다. (3) 적외선 중심 융합 기반 다중스펙트럼 객체 검출 연구에서는 비대칭 백본 구조와 크로스 모달 게이팅 메커니즘을 통해 열화상 영상과 가시광 영상을 효율적으로 융합하면서도 높은 처리 효율을 유지하였다.
다양한 벤치마크 실험을 통해 제안된 방법들이 실세계 환경에서의 인식 정확도와 강건성을 유의미하게 향상시킴을 확인하였다. 종합적으로 본 연구는 시각 인식 시스템의 신뢰성, 일반화 성능, 그리고 효율성을 향상시키며, 실세계 응용이 가능한 강인한 객체 인식 시스템으로 나아가기 위한 중요한 발판을 마련하였다.
- URI
- https://scholar.gist.ac.kr/handle/local/33854
- Fulltext
- http://gist.dcollection.net/common/orgView/200000938878
- 공개 및 라이선스
-
- 파일 목록
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.