OAK

Online Multi-Object Tracking with Hierarchical Data Association: Applying Filtering Based Motion and Appearance Models

Metadata Downloads
Author(s)
Young-min Song
Type
Thesis
Degree
Doctor
Department
대학원 전기전자컴퓨터공학부
Advisor
Jeon, Moongu
Abstract
Multi-object tracking (MOT) in video data has been considered as key techniques for intelligent video surveillance systems and autonomous vehicle systems in recent years. In general, tracking-by-detection paradigm has been widely used for MOT because of its representative characteristics: utility and modularity, that developers can separately manage and cooperate detector and tracker modules. Deep neural networks have boosted breakthroughs of object classification and detection but the object detectors are still imperfect in the presence of similarity between foregrounds (objects) and backgrounds, and occlusions between the objects, which mostly generate false positive and false negative (missed) detections that can cause ID-switch, false positive tracks, fragmented tracks, and lost tracks. In this dissertation, we aim to develop a practical and feasible online MOT framework to efficiently handle and reduce those tracking errors. The developed MOT framework is extended and evaluated into two types of MOT tasks. One is a general MOT (2D MOT) receiving 2D bounding box (box-wise) responses as detection inputs and the other is multi-object tracking and segmentation (MOTS) receiving pixel-wise instance segmentation as the inputs. These two applications share a common component that is Gaussian mixture probability hypothesis density (GMPHD) filter based hierarchical data association (HDA) strategy consisting of two stages, detection-to-track and track-to-track associations, to recover the lost tracks and their switched IDs. In addition, for 2D MOT, we combine the GMPHD filter based HDA tracking strategy with occlusion group management (OGM) scheme that handles occlusion problems with two main parts. The first part, “track merging” can merge the false positive tracks caused by false positive detections from occlusions. The occlusion of the false positive tracks is usually measured with some metric. In this research, we define the occlusion measure between visual objects, as sum-of-intersection-over-each-area (SIOA) instead of the commonly used intersection-over-union (IoU). The second part, “occlusion group energy minimization (OGEM)” prevents the occluded true positive tracks from false “track merging”. Each group of the occluded objects is expressed with an energy function and an optimal hypothesis will be obtained by minimizing the energy. We evaluate the proposed tracker named GMPHD-OGM in benchmarks such as MOT15 and MOT17 which are popular public datasets for multi-person tracking. An ablation study in training dataset reveals not only that “track merging” and “OGEM” complement each other, but also that the proposed tracking method shows more robust performance and less sensitiveness than baseline methods. Also, the tracking performance with SIOA is better than that with IoU for various sizes of false positives. Experimental results show that the proposed tracker efficiently handles occlusion situations and achieves competitive performance compared to the state-of-the-art methods. In fact, GMPHD-OGM shows the best multi-object tracking accuracy among the online and real-time executable methods. Second, for MOTS, we present a highly feasible fully online MOTS method named MAF_HDA that is based on the GMPHD filter, HDA, and a mask-based affinity fusion (MAF) model to achieve high-performance online tracking. HDA for MOTS consists of two association steps named segment-to track and track-to-track associations. One affinity, for position and motion, is computed by using the GMPHD filter, and the other affinity, for appearance is computed by using the responses from single object trackers such as kernalized correlation filter, SiamRPN, and DaSiamRPN. These two affinities are simply fused by using a score-level fusion method such as min-max normalization referred to as MAF. In addition, to reduce the number of false positive segments, we adopt mask IoU-based merging “mask merging”. The proposed MOTS framework with the key modules: HDA, MAF, and “mask merging”, is easily extensible to simultaneously track multiple types of objects with CPU-only execution in parallel processing. Furthermore, the developed framework only requires simple parameter tuning unlike many existing MOTS methods that need intensive hyperparameter optimization. In the experiments on the two popular MOTS datasets, the key modules show incremental improvements. For instance, ID-switch decreases by more than half compared to a baseline method in the training sets. In conclusion, our tracker achieves state-of-the-art MOTS performance in the test sets. Comprehensively, in this dissertation, we propose a highly practical and feasible online MOT framework and the propose method show state-of-the-art level performances in four famous datasets: MOT15 and MOT17 for 2D MOT and MOTS20 and KITTI-MOTS for MOTS. Furthermore, we have published official code implementations of GMPHD-OGM and MAF_HDA at Github repositories for research community.|다중 객체 추적 기술은 지능형 영상 감시나 자율 주행과 같은 시스템에서 최근 몇 년간 매우 중요한 기술로 다뤄지고 있다. 일반적으로 다중 객체 추적을 위해서는 검출에 의한 추적 패러다임이 널리 쓰이고 있다. 이는 이 패러다임의 대표적 특징이라고 할수있는 높은 범용성과 모듈로 따로 따로 관리가 가능한 특징 덕분인데, 개발자들이 검출모듈과 추적모듈을 별로도 관리하며 협업을 할 수 있기 때문이다. 딥 뉴럴 네트워크 기술이 객체 분류 및 검출 분야의 큰 성능 향상을 가능하게 했지만, 객체 검출기들은 여전히 전경 (관심 객체) 와 배경의 유사성이나 비디오 내 객체간 중첩으로 인해 불완전한 성능을 보여준다. 그러한 문제 상황들은 대게 객체 오검출 혹은 미검출과 같은 에러를 발생시키고 이는 역시 ID 스위치, 거짓양성 추적경로, 분할된 추적경로, 손실된 추적경로와 같은 추적 에러의 원인이 될 수 있다. 따라서 본 박사 학위 논문에서, 우리는 그러한 추적 에러들을 효과적으로 다루고 감소시키기 위한 실용적이고 실현 가능한 온라인 다중객체 추적 프레임워크를 개발하는 것을 목표로 한다. 개발한 다중객체 추적 프레임워크는 두가지 다중객체추적 과업으로 확장되고 평가된다. 하나는 가장 일반적인 다중객체 추적 분야로 2D 바운딩박스 검출결과를 입력으로 받고, 다른 하나는 픽셀레벨의 인스턴스 세그멘세이션 결과를 입력으로 받는다. 각각 2D MOT 와 MOTS 라고 명명 된다. 이 두 어플리케이션은 GMPHD 필터 기반의 계층적 데이터 연관 (HDA) 전략을 공통적인 구성요소로 공유한다. HDA는 손실된 추적경로들의 뒤바뀐 ID 를 복원하기 위해 검출-추적 연관 추적-추적 연관 두 단계로 구성이 된다. 추가적으로, 2D MOT 를 위해서, 우리는 GMPHD 필터 기반의 HDA 추적 전략에 객체 중첩 문제를 다루기 위해 두 파트로 구성된 중첩 그룹 관리 (OGM) 방법을 결합한다. 첫 번 때 파트 “추적경로 병합” 은 객체 중첩으로 인한 거짓양성 추적경로들을 병합 할 수 있다. 이 거짓양성 추적경로간의 중첩 비율을 측정하기 위한 척도가 필요한데, 이 연구에서 우리는 일반적으로 쓰이는 IoU 대신 SIOA 를 고안한다. 두 번 째 파트 “중첩 그룹 에너지 최소화 (OGEM)” 는 중첩된 참양성 추적 경로들이 잘못 병합되는 것을 방지한다. 각 중첩 그룹은 하나의 에너지 함수로 표현되며 최적의 확률가설이 이 에너지 함수를 최소화 시키는 상태에서 획득 될 것이다. 제안하는 추적기는 GMPHD-OGM 으로 명명되고 유명한 다중 사람 추적 공개 데이터셋 MOT15 와 MOT17 에서 평가된다. 학습용 서브셋을 이용한 애블레이션 연구결과는 “추적경로 병합” 과 “OGEM” 모듈이 각각을 보완해주고, 제안하는 추적 방법이 베이스라인 방법보다 강건하고 덜 민감한것을 보여준다. 또한, SIOA 척도를 이용했을 때 IoU 를 이용 했을 때보다 변동성이 큰 오검출 에러들을 다루는데 더 좋은 성능을 보여준다. 실험 결과들을 제안하는 추적기가 효과적으로 객체 중첩 상황을 다루고 최신방법들과 비교할 때 경쟁력 있는 성능을 보여준다. 결과적으로, GMPHD-OGM 은 실시간 온라인으로 실행가능한 추적기들중 가장 높은 다중 객체 추적 정확도를 보여 준다. 두번째로, 이미지 세그멘테이션과 결합된 다중 객체 추적 (MOTS) 을 위해 우리는 매우 실현가능한 완전 온라인 MOTS 방법을 제안하고 이를 MAF_HDA 로 명명한다. 이 방법은 GMPHD 필터 기반의 HDA 전략과 마스크 기반의 관련도 (affinity) 융합 (MAF) 으로 구성된다. MOTS 에서 HDA 는 세그먼트-추적 그리고 추적-추적 연관의 두가지 연관 단계로 구성된다. 관련도는 두가지 방법으로 측정되는데, 하나는 GMPHD 필터로 계산되는 위치 및 모션 관련도, 다른 하나는 KCF, SiamRPN, DaSiamRPN 과 같은 단일 객체 추적기의 응답결과로 계산이 되는 외형 관련도 이다. 이 두가지 관련도는 단순하게 최소-최대 정규화를 통한 스코어 레벨 융합 방법으로 융합된다. 추가로, 거짓양성 세그먼트들을 감소시키기 위해, 우리는 마스크 IoU 기반의 “마스크 병합” 을 채택한다. 제안하는 MOTS 프레임워크는 중요 모듈인 HDA, MAF, 그리고 “마스크 병합” 으로 구성 되며, 동시에 다중 타입 (클래스) 의 객체들을 추적하며 병럴처리로 동작하도록 확장 된다. 더욱이, 개발된 프레임워크는 기존의 많은 방법들이 극심한 하이퍼파라미터 최적화를 필요로 하는 것과 달리 간단한 파라미터 튜닝만 요구된다. 두가지 유명한 MOTS 데이터셋에서의 실험은 핵심 모듈들이 점진적으로 성능을 개선함을 보여준다. 예를 들어, 학습 데이터셋에서 ID 뒤바뀜 횟수는 베이스라인 방법과 비교 할 때 반 이상으로 감소 된다. 결과적으로, 우리의 추적기는 테스트 데이터셋에서 최신기술 수준의 MOTS 성능을 달성한다. 종합적으로, 우리는 이 학위 논문에서 매우 실용적이고 실현가능한 온라인 다중객체 프레임워크를 제안했을 뿐만 아니라 관련 연구 커뮤니티들을 위해 GMPHD-OGM, MAF_HDA 추적기의 공식 코드 구현을 Github 저장소에도 공개했다. 제안하는 방법은 최신기술 레벨의 성능을 MOT15, MOT17, MOTS20, KITTI-MOTS 네 가지 데이터셋에서 모두 달성한다.
URI
https://scholar.gist.ac.kr/handle/local/19541
Fulltext
http://gist.dcollection.net/common/orgView/200000883454
공개 및 라이선스
  • 공개 구분공개
파일 목록
  • 관련 파일이 존재하지 않습니다.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.