OAK

Deep Learning based Camera Localization using Iterative Relative Motion Estimation

Metadata Downloads
Author(s)
Daewoon Kim
Type
Thesis
Degree
Doctor
Department
대학원 기계공학부
Advisor
Ko, Kwang Hee
Abstract
Camera localization is an important research area that has been actively studied in the field of computer vision. Camera localization, which mathematically predicts the position and orientation of an image taken by a camera relative to the world coordinate system is also called a camera pose estimation. Camera localization calculates the transformation from the reference frame, called the world coordinate, into the camera coordinate, which is captured position and orientation of the camera. This research has become increasingly important owing to its popularity. Augmented reality (AR) and mixed reality (MR) are popular technologies that use camera localization. AR and MR show/augment actual or virtual information in the real world. To do so, a world coordinate based model and the relative pose between the world coordinate and the camera coordinate are essential. In addition, with the development of new types of augmented reality devices such as a head mounted display (HMD) and augmented reality (AR) glass, camera localization is playing an extremely import role in computer vision. In particular, camera localization is not only aimed at ordinary users, but also workers and researchers in industrial areas. This is because AR and MR are extremely useful to show information of working rooms, guidelines, blueprints, or CAD models.
Because camera localization has been a continuously studied field in computer vision, many different types of methods and algorithms have been developed. Marker based algorithms or edge/line based algorithms, hand-crafted feature based algorithms that use features that are invariant to image rotation or changes in scale, and 3D model based algorithms are popular examples. However, such algorithms have certain limitations. For example, marker based methods require the use of markers, and achieve a low performance under image occlusions, blur, fast changes in motion, and changes in the lighting environment. Although there are many accurate solutions, such as structure from motion or simultaneous localization and mapping, they need a tremendous amount of time to compute, require consecutive image sequences, or are only used in limited situations of camera tracking. However, with advent of a convolutional neural network (CNN), a drastic change occurred in the area of camera localization. A CNN is a type of deep learning which extracts image features using a convolution. In the early 2010s, CNNs began outpacing conventional algorithms in image classification, image recognition, image segmentation, and other areas. CNNs have also been applied to many computer vision areas. In mid-2010, the first attempt to apply a CNN to camera localization technology emerged, which is called deep camera localization or deep camera pose estimation. Deep learning based methods use a GPU to extract the features of images that are difficult for humans to recognize and have demonstrated an extremely fast inference speed despite their need for offline training. Currently, deep learning based methods achieve a low accuracy in comparison to previous approaches using hand-crafted features or 3D models.
In this thesis, we propose a deep learning based camera localization method that uses relative motion estimations in an iterative manner. Multiple correlated image pairs were trained during the offline training stage. During training, two correlated images are selected, and their absolute and relative poses between two images are trained simultaneously. Two Siamese convolutional neural networks are used to extract features from image pairs, which are related to their position and orientation. For the inference stage, we are able to estimate the absolute location and orientation of an image or estimate the relative location and orientation between two images using the proposed network architecture. First, the absolute location and orientation of an input query image are estimated using the proposed network. Second, using the estimated location and orientation, the most correlated image that has minimum loss in comparison to the input query image is selected in the training dataset. Third, relative motion is estimated using most of the proposed network architecture, the new absolute location and orientation of an input query image are estimated. Finally, by updating the relative motion estimation in an iterative manner, we compensate the absolute pose of an input query image. The proposed method shows a higher accuracy than existing deep learning based state-of-art approaches and overcomes the disadvantage of having a relatively low accuracy compared to the hand-crafted feature based methods and model based approaches. We validated our proposed method using a widely used dataset and our own dataset designed for AR.|카메라의 위치 및 방향 추정은 컴퓨터 비전 분야에서 오랫동안 활발하게 연구되어온 매우 중요한 기술이다. 기준 좌표계로부터 카메라로 촬영한 이미지가 어느 위치 및 방향에서 상대적으로 촬영 되었는지를 수치적으로 예측하는 카메라 위치 및 방향 추정 기술은 카메라 자세 추정 기술이라고도 불리기도 하는데, 특히나 최근에 스마트 기기의 발전과 메타버스의 인기로 인해 더욱 더 중요한 기술이 되었다. 단순하게 카메라가 어느 위치나 방향에서 촬영 되었는지를 파악하는 것을 넘어, 추정한 정보를 토대로 임의의 2차원, 3차원 정보를 현실에서 촬영한 이미지와 함께 보여주는 증강현실 (Augmented Reality, AR) 이나, 혼합 현실 (Mixed Reality, MR) 분야에서 카메라 자세 추정은 매우 중요한 역할을 하며, 헤드 마운티드 디스플레이 (Head Mounted Display, HMD), AR 글래스 등의 새로운 형태의 증강현실 기기의 발전으로 더더욱 중대성이 커지고 있다. 특히나 카메라 자세 추정 기술은 일반적인 사용자를 대상으로 한 연구뿐만 아니라, 산업 현장에서의 활용도도 커지고 있다. 현재 작업자가 작업하는 공간에 대한 정보나, 설계도, 가이드라인 등을 제공하는데 AR이 매우 큰 활용성을 갖기 때문이다.
카메라 자세 추정 기술은 컴퓨터 비전 분야에서 꾸준히 연구되어 온 만큼, 매우 다양한 방법이 존재한다. 기본적으로 컴퓨터 비전 분야에서의 특정 물체 인식 및 자세 추정 기술과 나란히 연구되어온 이 기술은, 마커 기반의 방식을 시발점으로, 이미지에서 edge나 line등의 정보를 이용하는 방법, 카메라 회전이나 스케일 변환에 대해 크게 변하지 않는 정보를 갖는 특징점을 이용하여 이미지간의 상대적인 변환 관계를 찾는 feature-based 방법, 3D모델을 이미지 매칭에 활용하는 모델 기반의 방법 등이 존재해왔다. 이러한 기술들은 막상 실제로 사용자가 사용하기 위해서는 마커를 설치하거나, 매우 많은 시간이 필요하거나, 조명이나 물체 가림 등에 의해 큰 오차를 갖는 큰 단점들이 존재했다. 하지만 2010년도 초반, 딥러닝을 활용한 이미지 처리에 특화된 합성곱 신경망(Convolutional Neural Network, CNN)의 등장으로 컴퓨터 비전 분야는 크게 변화했다. 합성곱 신경망의 등장 초반에는 이미지 분류 (Image Classification), 이미지 인식 (Image Recognition), 이미지 분할 (Image Segmentation)에 집중된 연구가 이루어졌으나, 이를 카메라 자세 추정에 활용하는 연구가 2010년도 중반부터 시작되었다. PoseNet 이라 불리는 기술을 시초로 딥러닝 기반의 카메라 위치 추정 (Deep Camera Localization, Deep Camera Pose Regressor) 기술이 본격적으로 연구되기 시작했다. 딥러닝 기반의 방식은 GPU를 활용하여 매우 빠른 추론 속도를 갖으나, 기존의 특징점 기반의 방식이나 모델 기반의 방식에 비해 상대적으로 정밀도가 떨어지는 단점이 여전히 존재한다.
본 연구에서는 다수의 학습 이미지로부터 연관관계를 갖는 여러 개의 이미지 쌍을 예상하고, 이를 딥러닝을 활용하여 학습을 수행하는 방법을 제안하고자 한다. 제안하는 방법은 다수의 학습 이미지 쌍으로부터 각각의 이미지가 갖는 월드 좌표 대비 절대 위치, 방향값과 이미지 쌍으로부터 계산할 수 있는 상대적인 위치와, 방향값을 합성곱 신경망을 이용하여 추출한 이미지 특징과 연결하여 네트워크를 학습한다. 오프라인 학습 단계를 수행한 이후, 추론 단계에서는 테스트 이미지 한 장만을 이용하여 이미지의 절대적인 자세를 추정한다. 테스트 이미지와 학습 이미지 중에 가장 상관관계가 높은 이미지를 선택하여 상대적인 위치를 추정하고, 예측한 학습 이미지의 자세를 보정하는 단계를 반복적으로 수행하여 최종적인 자세를 예측한다. 제안하는 방법은 기존의 딥러닝 기반 카메라 위치 추정 기술 방식들보다 높은 정확도를 보여주었으며, 딥러닝 기반 방식들이 갖고있는 특징점이나 모델 기반의 기술에 필적하는 정확도를 보여주었다. 제안하는 방법은 카메라 자세 추정 기술에 일반적으로 널리 사용되는 데이터셋과, 증강현실 구현을 위해 직접 구축한 데이터셋에 대해 검증하였다.
URI
https://scholar.gist.ac.kr/handle/local/19059
Fulltext
http://gist.dcollection.net/common/orgView/200000884557
Alternative Author(s)
김대운
Appears in Collections:
Department of Mechanical and Robotics Engineering > 4. Theses(Ph.D)
공개 및 라이선스
  • 공개 구분공개
파일 목록
  • 관련 파일이 존재하지 않습니다.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.