OAK

Machine learning-based speech enhancement and separation techniques using speaker representation

Metadata Downloads
Author(s)
Jaeuk Byun
Type
Thesis
Degree
Doctor
Department
대학원 전기전자컴퓨터공학부
Advisor
Shin, Jong Won
Abstract
음성 향상 및 음성 분리는 음성 신호처리 분야에서 오랫동안 활발하게 연구되어온 주제로, 이어폰, 휴대전화와 같은 단말의 음성 통신에서 사용자에게 향상된 음질을 제공하거나 AI비서, 홈 디바이스 등 최신 디바이스의 음성 인식, 화자 인식, 감정 인식 등 다양한 백엔드 어플리케이션의 전처리 기술로서 필수적이다. 통계 모델 기반 음성 향상은 머신 러닝 및 딥 러닝 기술의 발전을 맞아 더불어 급속한 발전을 이루었으며, 이들은 모델이 도출한 마스크를 입력 신호에 적용해 분리된 개별 신호의 특징 표현을 얻는 형태로 최근까지 새로운 문제 정의, 모델 구조, 비용 함수 등의 연구와 함께 진화해오고 있다. 한편, 딥 러닝 모델의 발달과 대용량 데이터 셋의 출시는 화자 인식 시스템의 발달에도 큰 영향을 주었는데, 특히 텍스트 독립적인 화자 인식 및 검증 문제에서도 매우 높은 성능을 보여주고 있다. 본 학위 논문에서는 음성이 이를 발화한 화자에 일대일 대응 관계를 가진다는 점에 주목하여, 머신러닝 및 딥 러닝 모델을 이용한 음성 향상, 음성 분리 문제에서 화자 정보를 활용해 분리 성능을 높일 수 있는 여러 방법론들을 다룬다.
비음수 행렬 인수분해 기반 음성 향상 및 음원 분리는 2010년대 음성 신호처리 분야에서 활발하게 연구된 머신 러닝 기법 중의 하나로, 음원에 대한 특징 기저를 음원 별로 학습해 모은 뒤, 이를 연접하여 음성 향상 단계에서는 해당 기저의 가중치만 도출해 각 음원 별 대응되는 성분들을 분석하여 마스크를 도출한다. 이 과정은 가중치만 도출하는 최적화 문제로 초기값이 줄 수 있는 영향에 대한 평가가 주목받지 못했으나, 개별 학습 후 연접하는 과정에서 음원 별 기저는 표현될 수 있는 기저 공간이 서로 겹치는 문제가 발생하며 특히 많은 기저를 학습할수록 고정된 기저에 대한 가중치 최적화 문제 역시 초기값 및 정규화 방법에 의해 크게 영향이 받는 것을 규명한다. 한편, 학습 단계에서 활용되지 않았던 가중치 행렬의 패턴을 통계적으로 분석하여 초기값으로 활용하는 방안을 제시하였다.
딥 러닝 기반 end-to-end음성 분리는 혼합 신호를 입력 신호, 분리된 신호를 목표 신호로 다양한 경우에 대해 학습해 딥 러닝 네트워크의 파라미터를 최적화하는 식으로 설계되는데, 별도 화자 정보를 주지 않는 경우 매 학습 배치에 포함된 로컬 화자 조합만을 학습하게 되므로 다양한 화자에 대한 분리 성능을 제대로 도출하기 어려운 구조이다. 이에, 화자 인식 기술을 결합해 글로벌하고 일관된 화자 정보를 기존 음성 분리 네트워크에 제공함으로써 다양한 화자 조합에 대한 분리 성능을 더욱 극대화하는 한편, 하나의 네트워크로 다양한 수의 화자 조합을 식별해 복잡한 화자 조합에서 더욱 안정적인 성능을 구할 수 있는 화자 기반 음성 분리 네트워크의 연구 내용들을 제시하였다. 마지막으로, 그간의 연구들을 돌아보고, 이로부터 앞으로 더욱 나아갈 향후 방향들을 정리하여 맺음한다.|Speech enhancement and speech separation are two main problems that have been long actively studied in the signal processing community. They can be used in the earphone devices and telecommunication systems to provide a high quality of speeches as well as in the personal assistant devices to be used as a front-end module for back-end applications as automatic speech recognition, speaker recognition, and acoustic emotion recognition.
Beginning from the statistical models, the speech enhancement and separation techniques have been dramatically developed with the development of machine learning and deep learning methods, and they are still evolving with various problem definitions, model structures, cost functions.
Meanwhile, the release of large-scale speech corpus also accelerated the development of speaker recognition systems, which have especially brought improvements on the text-independent speaker identification and verification systems.
Being inspired by the one-to-one correspondence between the spoken speech and speaker, I have conducted various researches on machine learning and deep learning based speech enhancement and separation systems using speaker representations.
In this dissertation, I briefly summarize the histories and backgrounds of speech enhancement and speech separation techniques and start with my early research topic on speech enhancement system using the nonnegative matrix factorization which is one of the dictionary-based machine learning technique. Then, I move to the deep-learning based speech separation problem and introduce the speaker-aware end-to-end speech separation systems that does not require the pre-enrollment of user information. Next, I introduce the methods for the speaker-aware speech separation network that can deal with various number of speakers using a single separation network, which shows a significant performance gains without introducing large number of additional parameters and computation. Finally, I revisit and conclude the previous formulations and summarize the questions and works to be further analyzed and investigated in the future.
URI
https://scholar.gist.ac.kr/handle/local/19468
Fulltext
http://gist.dcollection.net/common/orgView/200000884548
공개 및 라이선스
  • 공개 구분공개
파일 목록
  • 관련 파일이 존재하지 않습니다.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.