일반화된 고유값 빔형성을 위한 양방향 장단기 메모리 기반 마스크 후처리 기법
- Alternative Title
- BiLSTM-Based Mask Post-Processing Method for a Generalized Eigenvalue Beamformer
- Abstract
- 일반화된 고유값(generalized eigenvalue, GEV) 빔형성은 다채널 마이크로폰 어레이 구조에 독립적으로 도래각추정에 의존하지 않으면서 잡음 환경에서의 음성을 추정할 수 있다. GEV 빔형성을 위해서는 타겟 음성 및 잡음의 전력 스펙트럼 밀도 행렬을 구해야 한다. 본 논문에서는 GEV 빔형성을 위한 양방향 장단기 메모리(bidirectional long short-term memory, BiLSTM) 신경망 기반 이진 마스크 후처리 기법을 제안한다. 제안된BiLSTM은 다채널 잡음 음성의 스펙트로그램을 입력으로 하고 이진 마스크를 타켓으로 하여 학습되며, BiLSTM 으로 추정된 이진 마스크를 적용하여 음성 및 잡음의 전력 스펙트럼 밀도 행렬을 구하고, 이를 이용하여 고유값분해를 통해 GEV 가중치를 추정한다. 또한, BiLSTM 기반으로 추정된 이진 마스크를 GEV 빔형성으로 처리된음성에 추가적으로 적용되어 clean 음성 추정 성능 개선에 활용된다. 제안된 방법의 성능을 평가하기 위하여CHiME-3 데이터셋에 적용하여 실험한 결과, 기존의 BiLSTM 기반 이진 마스크 추정을 GEV 빔형성에 적용한경우와 비교하여, 제안된 방법이 perceptual evaluation of speech quality (PESQ)에서 0.34 mean opinion score (MOS)와 signal-to-distortion ratio (SDR)에서 0.91 dB를 개선하였다.
- Author(s)
- 송일훈; 김홍국
- Issued Date
- 2021-06
- Type
- Article
- URI
- https://scholar.gist.ac.kr/handle/local/11471
- 공개 및 라이선스
-
- 파일 목록
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.