OAK

일반화된 고유값 빔형성을 위한 양방향 장단기 메모리 기반 마스크 후처리 기법

Metadata Downloads
Alternative Title
BiLSTM-Based Mask Post-Processing Method for a Generalized Eigenvalue Beamformer
Abstract
일반화된 고유값(generalized eigenvalue, GEV) 빔형성은 다채널 마이크로폰 어레이 구조에 독립적으로 도래각추정에 의존하지 않으면서 잡음 환경에서의 음성을 추정할 수 있다. GEV 빔형성을 위해서는 타겟 음성 및 잡음의 전력 스펙트럼 밀도 행렬을 구해야 한다. 본 논문에서는 GEV 빔형성을 위한 양방향 장단기 메모리(bidirectional long short-term memory, BiLSTM) 신경망 기반 이진 마스크 후처리 기법을 제안한다. 제안된BiLSTM은 다채널 잡음 음성의 스펙트로그램을 입력으로 하고 이진 마스크를 타켓으로 하여 학습되며, BiLSTM 으로 추정된 이진 마스크를 적용하여 음성 및 잡음의 전력 스펙트럼 밀도 행렬을 구하고, 이를 이용하여 고유값분해를 통해 GEV 가중치를 추정한다. 또한, BiLSTM 기반으로 추정된 이진 마스크를 GEV 빔형성으로 처리된음성에 추가적으로 적용되어 clean 음성 추정 성능 개선에 활용된다. 제안된 방법의 성능을 평가하기 위하여CHiME-3 데이터셋에 적용하여 실험한 결과, 기존의 BiLSTM 기반 이진 마스크 추정을 GEV 빔형성에 적용한경우와 비교하여, 제안된 방법이 perceptual evaluation of speech quality (PESQ)에서 0.34 mean opinion score (MOS)와 signal-to-distortion ratio (SDR)에서 0.91 dB를 개선하였다.
Author(s)
송일훈김홍국
Issued Date
2021-06
Type
Article
URI
https://scholar.gist.ac.kr/handle/local/11471
Publisher
한국통신학회
Citation
한국통신학회논문지, v.46, no.6, pp.1078 - 1086
ISSN
1226-4717
Appears in Collections:
Department of Electrical Engineering and Computer Science > 1. Journal Articles
공개 및 라이선스
  • 공개 구분공개
파일 목록
  • 관련 파일이 존재하지 않습니다.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.