Zero-Shot Voice Conversion Based on Cross-Factor Perturbation and Perturbed Latent Mixup
- Author(s)
- Chae-Woon Bang
- Type
- Thesis
- Degree
- Master
- Department
- 정보컴퓨팅대학 AI융합학과
- Advisor
- Kim, Hong Kook
- Abstract
- Although successful speech disentanglement is a prerequisite for zero-shot voice conversion (ZSVC), the performance of ZSVC is often limited by feature leakage, where content and speaker information remain entangled. To mitigate this issue, this thesis proposes Cross-Factor Perturbation (CFP), a strategy that trains encoders to capture representations of specific information through the perturbation of non-specific information. In this study, the specific information an encoder must learn is defined as the Target Factor, while the non-specific information to be excluded is regarded as the Cross-Factor. Specifically, CFP perturbs speaker information while preserving content during content encoder training, and conversely perturbs content information while preserving speaker traits during speaker encoder training. This induces each encoder to learn representations invariant to the Cross-Factor. Furthermore, Perturbation Latent Mixup (PLM), a data augmentation technique, is introduced to reduce generalization error. The proposed methods enable high-quality voice conversion through a single training stage without requiring parallel data or complex multi-step procedures. Experimental results confirm that the ZSVC system trained with the proposed method achieves robust content preservation and verify the effectiveness of CFP and PLM. Moreover, evaluations on unseen-to-unseen datasets demonstrate that the proposed model yields higher speaker similarity and perceptual quality compared to existing baseline models.|성공적인 음성 분리(Speech Disentanglement)는 제로샷 음성 변환(Zero-Shot Voice Conversion, ZSVC)의 필수 전제 조건이지만, ZSVC의 성능은 종종 콘텐츠와 화자 정보가 얽혀 있는 특징 누출(Feature Leakage) 문제로 인해 제한된다. 이러한 문제를 해결하기 위해 본 논문에서는 비특정 정보의 교란을 통해 인코더가 특정 정보의 표현을 효과적으로 포착하도록 학습시키는 전략인 Cross-Factor Perturbation (CFP)을 제안한다. 본 연구에서는 인코더가 학습해야 하는 특정 정보를 Target Factor로 정의하고, 배제해야 할 비특정 정보를 Cross-Factor로 간주한다. 구체적으로 CFP는 콘텐츠 인코더 학습 시 콘텐츠 정보는 유지하되 화자 정보를 교란하며, 반대로 화자 인코더 학습 시에는 화자 특성을 유지하면서 콘텐츠 정보를 교란한다. 이를 통해 각 인코더가 Cross-Factor에 불변하는 표현을 학습하도록 유도한다. 또한, 모델의 일반화 오류를 줄이기 위해 데이터 증강 기법인 Perturbation Latent Mixup (PLM)을 도입하였다. 제안된 기법들은 병렬 데이터나 복잡한 다단계 절차 없이 단일 학습 단계만으로 고품질의 음성 변환을 가능하게 한다. 실험 결과, 제안된 방식으로 학습된 ZSVC 모델은 강력한 콘텐츠 보존 성능을 달성하였으며, CFP와 PLM의 유효성이 검증되었다. 아울러 학습되지 않은 화자(Unseen speaker) 데이터셋에 대한 평가 결과, 제안된 모델이 기존 베이스라인 모델 대비 더 높은 화자 유사도와 청각적 품질을 제공함을 확인하였다.
- URI
- https://scholar.gist.ac.kr/handle/local/33861
- Fulltext
- http://gist.dcollection.net/common/orgView/200000951331
- 공개 및 라이선스
-
- 파일 목록
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.