OAK

Learning to Detect Visual Relationships in Images and Videos

Metadata Downloads
Author(s)
Sangmin Woo
Type
Thesis
Degree
Master
Department
대학원 전기전자컴퓨터공학부
Advisor
Kim, Kangil
Abstract
Humans do not see the world as raw pixels, rather understand the scene by abstracting it into high-level symbols. In an effort to reflect these human characteristics, previous scene understanding works have been studied for object-level understanding beyond pixel-level (e.g., object detection, semantic segmentation, and panoptic segmentation). The main objective behind them is to identify “what” are all the objects present in the scene and “where” they are located. The scene however contains not only various types of physical objects, but also interactions between objects or with their environment. To take one step further, a number of studies have emerged recently in an attempt to define the relationship between objects (e.g., image/video visual relationship detection, human-object interaction, and scene graph generation). This thesis aims to provide insights into the underlying challenges of detecting visual relationships in image and video domains and propose novel approaches to tackle the problems. The first chapter deals with Scene Graph Generation (SGG) in the image domain, and the second chapter deals with Video Visual Relation Detection (VidVRD).

SGG is a task of defining a structured description that captures a semantic summary of objects and their relationships present in an image. In Chapter 1, analysis is first performed at the dataset level to gain insight into the task, and the following challenges are found: 1) Ambiguity: even if inter-object relationship contains the same object (or predicate), they may not be visually or semantically similar, 2) Asymmetry: despite the nature of the relationship that embodied the direction, it was not well addressed in previous studies, and 3) Higher-order contexts: leveraging the identities of certain graph elements can help to generate accurate scene graphs. In this chapter, a novel SGG framework named Local-to-Global Interaction Networks (LOGIN), designed based on prior analysis, is proposed. First, local interactions extract the essence between three instances of subject, object, and background, while baking direction awareness into the network by explicitly constraining the input order of subject and object. Second, global interactions encode the contexts between every graph components (i.e., nodes and edges). Finally, Attract & Repel loss is utilized to fine-tune the distribution of predicate embeddings. By design, our framework enables predicting the scene graph in a bottom-up manner, leveraging the possible complementariness. To quantify how much LOGIN is aware of relational direction, a new diagnostic task called Bidirectional Relationship Classification (BRC) is also proposed. It can be seen that LOGIN can successfully distinguish relational direction than existing methods (in BRC task), while showing state-of-the art results on the Visual Genome benchmark (in SGG task).

While several works have been proposed for relationship modeling in the image domain, there have been many constraints in the video domain due to challenging dynamics of spatio-temporal interactions (e.g., Between which objects are there an interaction? When do relations occur and end?). To date, two representative methods have been proposed to tackle VidVRD: segment-based and window-based. In Chapter 2, we first point out the limitations of these two methods have and propose Temporal Span Proposal Network (TSPN), a novel method with two advantages in terms of efficiency and effectiveness. 1) TSPN tells what to look: it sparsifies relation search space by scoring relationness (i.e., confidence score for the existence of relation between pair of objects) of object pair. 2) TSPN tells when to look: it leverages the full video context to simultaneously predict the temporal span and categories of the entire relations. TSPN demonstrates its effectiveness by achieving new state-of-the-art by a significant margin on two VidVRD benchmarks (ImageNet-VidVDR and VidOR) while also showing lower time complexity than existing methods -- in particular, twice as fast as popular segment-based approach.|사람은 세상을 단순히 픽셀로 보는 것이 아니라 높은 수준의 기호로 장면을 추상화하여 이해한다. 장면 이해 연구에서는 이러한 인간 특성을 반영하기 위해 픽셀 단위를 넘어 객체 탐지, 의미 분할 및 파놉틱 분할 등 객체 단위의 이해를 위한 연구를 진행하였다. 이들의 주요 목표는 대부분 장면 내의 물체들이 "무엇"이고 "어디"에 있는지를 찾는 것에 초점이 맞추어져 있다. 그러나 장면에는 다양한 유형의 물리적 객체뿐만 아니라 객체 간 또는 환경과의 상호 작용도 포함된다. 근래에는 보다 더 높은 수준의 장면 이해를 위해 이미지/비디오 시각적 관계 감지, 인간-객체 상호 작용, 장면 그래프 생성 등 객체 간의 관계를 정의하려는 연구가 대거 등장하였다. 본 학위 논문은 이미지 및 비디오 도메인에서의 시각적 관계 탐지에 있어 근본적인 어려움에 대한 통찰을 제공하고 문제를 해결하기 위한 새로운 접근 방식을 제안하는 것을 목표로 한다. 제1장에서는 이미지 도메인의 장면 그래프 생성(Scene Graph Generation; SGG)을, 제2장에서는 비디오 도메인의 비디오 시각적 관계 탐지(Video Visual Relation Detection; VidVRD)에 대해서 다룬다.

장면 그래프 생성은 이미지 내의 객체와 객체 간의 관계에 대한 의미적 요약을 포착하여 구조화된 설명을 제시하는 작업이다. 제1장에서는, 먼저 해당 과제의 데이터 레벨 분석을 수행함으로써 몇 가지 통찰을 제시한다. 1) 모호성: 객체 간 관계가 동일한 술어(또는 객체)를 포함하더라도 이를 표현하는 객체(또는 술어)는 시각적으로나 의미상으로 유사하지 않을 수 있다. 2) 비대칭: 방향을 내재하고 있는 관계 본연의 특성에도 불구하고 이러한 문제는 이전의 연구에서 잘 다루어지지 않았다. 3) 고차 맥락: 노드 혹은 엣지 등의 특정 그래프 요소를 활용하면 보다 더 정확한 장면 그래프를 생성할 수 있다. 이번 장에서는 앞선 분석에 기반하여 설계한 새로운 장면 그래프 생성 프레임워크인 LOGIN(Local-to-Global Interaction Network)을 제안한다. 첫째로, 지역적 상호 작용(Local interaction)은 주체와 객체의 입력 순서를 명시적으로 제한하여 네트워크에 방향 인식성을 내재함과 동시에 주제, 객체 및 배경의 세 가지 인스턴스 사이에서 중요한 정보를 추출한다. 둘째로, 전역적 상호 작용(Global interaction)은 모든 그래프 구성 요소(노드와 에지) 간의 맥락을 인코딩한다. 최종적으로, Attract & Repel loss를 활용하여 술어 임베딩의 분포를 세밀하게 조정한다. 이 프레임워크는 각 기능의 상호보완성을 활용하여 상향식으로 장면 그래프를 예측한다. 또한, LOGIN이 관계적 방향에 대해 얼마나 잘 이해하고 있는지 정량화하기 위해 양방향 관계 분류(Bidirectional Relationship Classification; BRC)라는 새로운 진단 작업을 제안한다. LOGIN은 Visual Genome 벤치마크에서 최첨단 성능을 달성하면서도(SGG 과제) 기존 방법보다 관계적 방향을 더 성공적으로 구별할 수 있음을 확인할 수 있다(BRC 과제).

관계 모형화 연구가 이미지 도메인에서는 다수 제안되었지만, 비디오 도메인에서는 시공간 상호작용의 까다로운 역학으로 인해 많은 제약이 있었다(예: 어떤 객체 사이에 상호 작용이 존재하는가? 관계는 언제 발생하고 끝나는가?). 제2장에서는, 비디오 시각적 관계 탐지를 해결하기 위한 기존의 두 가지 접근법(세그먼트 기반과 창 기반 방법)의 한계를 지적하고 효율성과 효과 측면에서 두 가지 장점을 가지는 Temporal Span Proposal Network (TSPN)를 제안한다. 1) TSPN은 무엇을 봐야 할지를 알려준다: 객체 쌍의 관계성(객체 쌍 간의 관계 존재에 대한 확신 점수)에 점수를 매김으로써 관계 검색 공간을 줄여준다. 2) TSPN은 언제 봐야 할지를 알려준다: 전체 비디오 맥락을 직접적으로 활용하여 모든 관계의 시간적 범위와 범주를 동시에 예측할 수 있다. TSPN은 두 개의 VidVRD 벤치마크(ImageNet-VidVDR 및 VidOR)에서 큰 격차로 새로운 최첨단 성능을 달성함과 동시에 기존의 방법보다 낮은 시간 복잡도(이는 이전의 많은 연구에서 사용되었던 세그먼트 기반 접근 방식보다 두 배 더 빠르다)를 보임으로써 그 유효성을 입증한다.
URI
https://scholar.gist.ac.kr/handle/local/33365
Fulltext
http://gist.dcollection.net/common/orgView/200000905905
공개 및 라이선스
  • 공개 구분공개
파일 목록
  • 관련 파일이 존재하지 않습니다.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.