시간 영역 다채널 음성 분리를 위한 향상된 마스크 추정
- Alternative Title
- Enhanced Mask Estimation for Time Domain Multichannel Speech Separation
- Abstract
- 본 논문은 시간 영역 단채널 음성분리모델을 다채널 음성분리모델로 확장하는 방법을 제안한다. 기존 단채널 음성분리모델의 컨벌루션 블록을 2 차원 커널로 확장하여 모든 채널의 신호가 마스크를 추정하는데 사용될 수 있도록 하였다. 이후 1x1 컨벌루션을 이용하여 모든 채널에서 추정한 마스크의 정보를 통합하여 하나의 마스크를 추정한다. 여러 마이크를 마스크 추정에 활용하는 제안된 모델이 각 화자의 음성으로의 분리 성능을 향상시킬 수 있음을 실험을 통해 검증하였다. 또한 컨벌루션 블록 내부에서 모든 채널이 공유할 수 있는 추가적인 정보를 학습하여 음성 분리 성능을 향상시킬 수 있음을 확인하였다.
- Author(s)
- Yoon, Sanghyu; Byun, Jaeuk; Kim, Hyeonseung; Shin, Jong Won
- Issued Date
- 2020-11-01
- Type
- Conference Paper
- URI
- https://scholar.gist.ac.kr/handle/local/22711
- 공개 및 라이선스
-
- 파일 목록
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.