End-to-End 기반 다채널 음성분리를 위한 SI-SNR 손실 함수 변조 연구
- Alternative Title
- A Study on the Modulation of SI-SNR Loss Function for End-to-End Multi-Channel Speech Source Separation
- Abstract
- 본 논문은 최근 End-to-End 기반 딥러닝 다채널 음성분리에서 많이 쓰이는 손실 함수 중 하나인 SI-SNR (scale invariant-signal to noise ratio)에 추가적인 정규화 텀을 고려한 변조 기법을 제안한다. 딥러닝으로 추정된 음성을 복원(reconstruction), 다른 음원 제거(separation), 잡음 제거(denoising) 관점으로 각 부분으로 나누어, 다른 음원 제거 음원 분리 성능 및 음성 품질 성능을 고도화할 수 있는 효과적인 정규화를 손실 함수에 포함하였다. 본 논문에서는 실험을 통해 본 제안된 추가적인 정규화의 성능 향상 정도를 객관적 음성분리 성능 지표인 SI-SNR, 객관적 음성 품질 지표인 PESQ (perceptual evaluation of speech quality)를 통해 비교하였다.
- Author(s)
- Song, Hyungchan; Kim, Hyeonseung; Oh, Jinwoo; Byun, Jauek; Shin, Jong Won
- Issued Date
- 2021-11-17
- Type
- Conference Paper
- URI
- https://scholar.gist.ac.kr/handle/local/21969
- 공개 및 라이선스
-
- 파일 목록
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.