Generalization in Referring Image Segmentation beyond Constraints of Labels, Domains, and Linguistic-ambiguity
- Author(s)
- Seonghoon Yu
- Type
- Thesis
- Degree
- Doctor
- Department
- 정보컴퓨팅대학 AI융합학과
- Advisor
- Kim, Sundong
- Abstract
- 의미론적 분할(semantic segmentation) 분야에서 상당한 발전이 있었지만, 사전 정의된 객체 범주에 의존하는 근본적인 한계로 인해 실제 적용은 제한적이었습니다. 그 결과, 복잡하고 실용적인 상황에서 흔히 발생하는, 사전 정의된 목록에 없는 특정 개체나 임의의 객체를 분할해야 할 때 이 기술은 실패합니다. 본 학위 논문은 기존의 분할 방식을 넘어, 자연어 설명으로 묘사된 임의의 객체를 분할하기 위한 새로운 방법론을 소개합니다.
본 연구는 주어진 언어 표현과 관련된 시각적 영역을 분할하는 것을 목표로 하는 복잡한 비전-언어 태스크인 참조 영상 분할(RIS)을 위한 최초의 제로샷(zero-shot) 프레임워크를 제안하는 것으로 시작합니다. 이 프레임워크는 사전 훈련된 CLIP 모델의 풍부한 지식을 별도의 태스크별 훈련 없이 활용하여, RIS의 비용이 많이 드는 수동 주석(annotation) 작업의 필요성을 효과적으로 제거합니다. RIS 태스크에 CLIP의 능력을 완전히 활용하기 위해, 이 방법은 시각 및 언어 양식(modality) 모두에서 전역적 및 지역적 맥락 특징을 포착합니다. 제안된 Global-Local CLIP은 다른 제로샷 기반 모델들보다 뛰어난 성능을 보이며, 완전 지도 학습 방식보다 보이지 않는 도메인에 대해 더 나은 일반화 성능을 보여줍니다.
다음으로, 본 논문은 수동으로 주석 처리된 데이터셋의 제한된 범위로 인해 발생하는 완전 지도 학습 RIS 방법의 낮은 일반화 성능이라는 중대한 문제를 다룹니다. 이 문제를 해결하기 위해, 광범위한 도메인 지식을 가진 여러 파운데이션 모델(foundation model)을 활용하여 유사 지도 학습 데이터(pseudo-supervision)를 생성하는 새로운 프레임워크를 제안합니다. 생성된 의사 캡션(pseudo-caption)을 더 독특하게 만듦으로써, 결과적인 의사 레이블(pseudo label)은 RIS 훈련에 적합하게 됩니다. 우리의 유사 지도 학습 데이터로 훈련된 모델은 수동 지도 학습으로 훈련된 모델에 비해 다양한 도메인에서 우수한 일반화 성능을 보입니다.
마지막으로, 본 논문은 사용자의 표현에 나타나는 언어적 모호성이라는 중대한 문제를 다룹니다. 이러한 모호성은 종종 RIS 모델이 대상 객체를 찾는 데 실패하게 만듭니다. 이 문제를 완화하기 위해, 우리의 새로운 프레임워크는 단일하고 불충분하게 명시된 입력을 새로운 시각적 개념으로 보강된 여러 잠재적 표현(latent expression)으로 증강합니다. 그 다음, 생성된 잠재적 표현들의 미묘하고 유익한 차이점은 보존하면서 원래 텍스트와 정렬합니다. 마스크 예측을 위해 이러한 증강된 표현을 활용함으로써, 모델은 원래 입력을 넘어서는 추가적인 단서를 사용하게 되어 다양한 벤치마크에서 최고 수준의 성능을 달성합니다.
본 학위 논문은 주석 비용을 없애고, 일반화 성능을 강화하며, 언어적 모호성을 해결하는 혁신적인 방법들을 통해 언어 기반 객체 분할 태스크를 발전시킵니다. 종합적으로, 이러한 기여들은 RIS 및 비전-언어 처리 분야의 미래 연구를 위한 귀중한 토대를 마련하며, 더 견고하고 실용적인 실제 응용 프로그램 개발을 가능하게 합니다.
|Although significant progress has been made in the field of semantic segmentation, its real-world application is fundamentally constrained by its reliance on a fixed set of object categories. As a result, this approach fails when a user needs to segment a specific entity or an arbitrary object that is not on the predefined list, a real-world scenario in more complex, practical situations. This dissertation moves beyond traditional segmentations and introduces new techniques for segmenting arbitrary objects described by natural language descriptions.
This work begins with the proposal of the first zero-shot framework for Referring Image Segmentation (RIS), a complex vision-language task that aims to segment visual regions related to a given linguistic expression. By leveraging the rich knowledge of the pre-trained CLIP model without any task-specific training, this framework effectively eliminates the need for costly manual annotations in RIS. To fully take advantage of CLIP's capabilities for the RIS task, this method captures both global and local context features across the visual and linguistic modalities. The proposed Global-Local CLIP outperforms other zero-shot baselines and shows better generalization performance on unseen domains than fully-supervised approaches.
This dissertation next addresses the poor generalization of fully-supervised RIS methods, a critical challenge caused by the limited coverage of manually annotated datasets. To solve this, a novel framework that generates pseudo-supervision is proposed by leveraging multiple foundation models with their broad domain knowledge. By making the pseudo-captions more distinctive, the resulting pseudo labels are well-suited for RIS training. The trained model under our pseudo-supervision demonstrates superior generalization across diverse domains compared to those trained with manual supervision.
Finally, this dissertation addresses the critical challenge of linguistic ambiguity in user expressions, which often causes RIS models to fail at localizing the target object. To mitigate this, our novel framework augments the single, underspecified input into multiple latent expressions, each enriched with novel visual concepts. Next, it aligns these generated latent expressions with the original text in a way that preserves their subtle, informative differences. By leveraging these augmented expressions for mask prediction, the model utilizes additional cues beyond the original input, leading to state-of-the-art performance across varied benchmarks.
This dissertation advances the task of language-guided object segmentation with innovative methods that remove annotation cost, strengthen generalization, and resolve linguistic ambiguity. Together, these contributions establish a valuable foundation for future research in the field of RIS and vision-language processing, enabling the development of more robust and practical real-world applications.
- URI
- https://scholar.gist.ac.kr/handle/local/33755
- Fulltext
- http://gist.dcollection.net/common/orgView/200000938042
- 공개 및 라이선스
-
- 파일 목록
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.