OAK

A Canonical Domain Approach for Efficient Generalization of 3D Human Pose Estimation

Metadata Downloads
Author(s)
Lee Hoosang
Type
Thesis
Degree
Doctor
Department
대학원 융합기술학제학부(지능로봇프로그램)
Advisor
Yoon, Jung Won
Abstract
최근 딥러닝의 발전으로 3차원 인간 자세 추정(3D Human Pose Estimation, HPE) 의성능이크게향상되었다.그러나훈련도메인과목표도메인간의도메인차이로인한 성능저하는여전히일반화에있어주요한도전과제로남아있다.기존의일반화접근방 식인 도메인 일반화(Domain Generalization, DG)와 도메인 적응(Domain Adaptation, DA)은일반적으로광범위한데이터증강또는목표도메인에특화된적응을요구하므로, 추가적인 계산 비용과 시간 소모를 초래한다. 이러한 문제를 보다 효율적으로 해결하기 위해, 본 논문에서는 훈련와 목표 도메인 을 통합된 표준 도메인으로 변환하는 새로운 표준 도메인 접근 방식(canonical domain approach)을제안한다.이로써목표도메인에서의추가적인미세조정(fine-tuning)없이 도일반화가가능해진다.표준도메인구성을위해,본논문은 2D–3D자세간의일관성을 보장하고 자세 패턴을 단순화하여 리프팅 네트워크(lifting network)의 학습 효율을 향 상시키는 새로운 2D–3D 자세 매핑을 생성하는 자세 표준화(pose canonicalization)를 도입한다. 훈련 및 목표 도메인의 표준화는 다음과 같이 이루어진다: (1) 훈련 도메인 에서는 표준화된 2D–3D 자세 쌍을 사용하여 리프팅 네트워크를 학습시키고, (2) 목표 도메인에서는 추론 전 투영 기하(perspective projection)의 특성과 카메라 내부 파라미 터 정보를 활용하여 입력 2D 자세를 2D 표준화 과정을 통해 표준화한다. 이로써 학습된 네트워크를 목표 도메인에 대한 추가 학습 없이 바로 적용할 수 있다. 또한,본논문은 2D–3D자세패턴을복잡하게만드는요인중하나인 2D–3D크기모 호성(scale ambiguity)을해결하기위해표준도메인접근방식을확장한다.이를위해 3D 자세의크기를해당 2D자세의크기에정렬하는스케일표준화(scale canonicalization)를 도입하고,이를기존의자세표준화와결합하여스케일확장표준화과정(scale-extended canonicalization process)을 구성한다. 이러한 확장된 접근 방식은 표준 도메인 상에서 x 및 y 차원에서의 정확도를 크게 향상시키는 반면, 상대적인 깊이 모호성(relative depth ambiguity)이 해결되지 않아 z 차원에서는 성능이 저하되는 문제가 있다. 이를 보완하기 위해, 본 논문은 차원별 앙 상블(dimension-wise ensemble) 기법을 제안한다. 이 기법은 z 차원에서 우수한 성능을 보이는 자세 표준화 모델과 x, y 차원에서 효과적인 스케일 확장 표준화 모델의 예측을 결합하여 전반적인 성능을 향상시킨다. Human3.6M, Fit3D, MPI-INF-3DHP등다양한공개데이터셋과리프팅네트워크를 활용한 실험을 통해, 제안된 방법이 모델에 구애받지 않으며, 추가적인 데이터 증강이 나 도메인 적응 없이도 교차 도메인 일반화 성능을 효과적으로 향상시킴을 입증하였다. 특히, 3DHP 데이터셋에 대한 교차 도메인 평가에서 최고 성능을 달성하였다.|Recent advancements in deep learning have significantly improved the performance of 3D Human Pose Estimation (HPE). However, performance degradation caused by domain gaps between source and target domains remains a major challenge to gen- eralization. Conventional generalization approaches, such as Domain Generalization (DG) and Domain Adaptation (DA), often require extensive data augmentation or target domain-specific adaptation, resulting in additional computational cost and time consumption. To address this issue more efficiently, this dissertation proposes a novel canonical domain approach that transforms both the source and target domains into a unified canonical domain, thereby alleviating the need for additional fine-tuning in the tar- get domain. To construct the canonical domain, pose canonicalization is introduced to generate a novel 2D–3D pose mapping that ensures 2D–3D pose consistency and simplifies 2D–3D pose patterns, enabling more efficient training of lifting networks. Canonicalization of both domains is achieved as follows: (1) in the source domain, a lifting network is trained using canonical 2D–3D pose pairs; and (2) in the target do- main, input 2D poses are canonicalized prior to inference through a 2D canonicalization process which leverages the properties of perspective projection and known camera in- trinsics. As a result, the trained network can be directly applied to the target domain without additional fine-tuning. This dissertation further extends the canonical domain approach to address 2D–3D scale ambiguity, a factor that also complicates the 2D–3D pose patterns. Specifically, scale canonicalization is introduced, which aligns the scale of a 3D pose with that of its corresponding 2D pose. This is combined with the pose canonicalization to form a scale-extended canonicalization process. While this extended approach significantly improves accuracy in the x and y di- mensions in the canonical domain, it compromises performance in the z dimension due to unresolved relative depth ambiguity. To address this limitation, a dimension- wise ensemble method is proposed. This method combines predictions from the pose canonicalization model, which is effective in the z dimension, with those from the scale- extended canonicalization model, which performs well in the x and y dimensions. Experiments conducted using various lifting networks and publicly available datasets (e.g., Human3.6M, Fit3D, MPI-INF-3DHP) demonstrate that the proposed method is model-agnostic and effectively enhances cross-dataset generalization performance without requiring additional data augmentation or domain adaptation. In particu- lar, it achieves state-of-the-art performance in cross-dataset evaluations on the 3DHP dataset.
URI
https://scholar.gist.ac.kr/handle/local/31832
Fulltext
http://gist.dcollection.net/common/orgView/200000885253
Alternative Author(s)
이후상
Appears in Collections:
Department of AI Convergence > 4. Theses(Ph.D)
공개 및 라이선스
  • 공개 구분공개
파일 목록
  • 관련 파일이 존재하지 않습니다.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.