OAK

Perception and Policy Factorization with Enlarged Views for Interactive Instruction Following

Metadata Downloads
Abstract
자연어를 기반으로 가사를 도울 수 있는 로봇 도우미를 개발하는 것은 수십년간 연구자들에게 매우 도전적인 과제로 남아있다. 이러한 복잡한 문제를 해결할 수 있는 로봇 시스템 개발을 위해, 본 논문은 상호작용적 지시 수행 임무 문제에 대해 다룬다. 상호작용을 통해 지시를 수행하기 위해서는, 주어진 자연어 지시를 이해하고 관측된 시각 데이터를 기반으로 주어진 환경에서 의도된 목적지까지 도달하고 관련 물체들과 상호작용하며 최종적으로 지시문이 원하는 임무를 성공적으로 완수해야 한다.

상호작용적 지시 수행 시,에이전트는 임무를 수행하기 위한 일련의 행동을 예측하고 필요한 객체와 상호작용할 수 있어야 한다. 그러나, 행동 예측은 관측 이미지의 전체적인 의미를 파악하는 반면 상호작용은 객체 위치 파악을 위한 픽셀 단위의 이해가 요구되기에 에이전트는 서로 다른 정보를 처리할 수 있어야 한다. 이렇게 의미론적으로 다른 처리를 효과적으로 다루고자, 본 논문은 각 처리를 분리된 네트워크로 다루는 에이전트를 제안한다. 에이전트는 크게 행동 정책 모듈(APM)과 상호작용적 지각 모듈(IPM)으로 나뉘며, 각각 행동 예측과 상호작용을 위한 객체 위치 파악을 담당한다.

이에 더하여, 일반적으로 에이전트는 카메라로부터 시각 데이터를 획득하고 사용하기 때문에 카메라의 시야(Field of View, FOV)에 따라 에이전트가 환경을 다르게 인지할 수 있다. 그러나, 에이전트가 좁은 시야를 가질 경우 에이전트가 환경을 이해하고 임무 수행에 필요한 행동을 추론할 수 있는 능력이 저하될 수 있다. 이렇게 제한된 에이전트의 시야를 넓게 확장하고자, 본 논문은 에이전트의 1인칭 시점뿐만 아니라 주변 시야를 같이 획득함으로써 확장된 시각 데이터를 구성한다. 제안된 에이전트는 확장된 시각 데이터에 기반하여 효과적으로 행동을 예측하고 객체와 상호작용할 수 있다.
Author(s)
Byeonghwi Kim
Issued Date
2022
Type
Thesis
URI
https://scholar.gist.ac.kr/handle/local/19570
Alternative Author(s)
김병휘
Department
대학원 AI대학원
Advisor
Son, Jeany
Degree
Master
Appears in Collections:
Department of AI Convergence > 3. Theses(Master)
공개 및 라이선스
  • 공개 구분공개
파일 목록
  • 관련 파일이 존재하지 않습니다.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.