OAK

Postfilter for multi-channel speech enhancement integrating spatial and spectro-temporal information

Metadata Downloads
Author(s)
Sein Cheong
Type
Thesis
Degree
Doctor
Department
정보컴퓨팅대학 전기전자컴퓨터공학과
Advisor
Shin, Jong Won
Abstract
Speech enhancement aims to suppress the noise and improve the quality and intelli- gibility of degraded speech signals in a variety of acoustic environments. In contrast to single channel speech enhancement, which exploits the spectro-temporal information of the input signal to estimate clean speech, multichannel speech enhancement can further leverage spatial cues obtained from multiple microphones to achieve improved performance. There has been a growing demand for speech enhancement using micro- phone arrays in speech processing applications such as automatic speech recognition, mobile communications, meeting summarization and hearing aids. One of the popular configurations for multichannel speech enhancement is to apply a spatial filter exploit- ing spatial diversity of sound sources, and then apply a single-channel postfilter to the output of the spatial filter. One of the popular configurations in multichannel speech enhancement involves applying a spatial filter, such as the minimum variance distor- tionless response (MVDR) beamformer, that exploits the spatial diversity of sound sources, followed by a single-channel postfilter to further reduce residual noise. In this dissertation, we propose methods that incorporate multichannel information to construct postfilters aiming to effectively utilize spatial and spectro-temporal infor- mation. First, we propose a statistical model-based postfilter for dual-channel speech enhancement, combining a statistical model-based single channel noise power spectral density (PSD) estimator and a coherence-based dual channel noise PSD estimator with the a posteriori speech presence probability (SPP). We model the coherence-based a posteriori SPP as a simple function of the magnitude of coherence between two micro- phone signals and combine it with a single-channel SPP based on statistical models. The coherence-based estimator for the PSD of the noise remaining in the beamformer output in the presence of speech is derived using the pseudo-coherence considering the effect of the beamformers, which is used to construct the coherence-based noise PSD estimator. Then, the final noise PSD estimator is obtained by combining the coherence- based and statistical model-based noise PSD estimators with the proposed SPP. The spectral gain function is also modified, incorporating the proposed SPP. Experimental results demonstrate that the proposed method led to more accurate noise PSD estima- tion and perceptual evaluation of speech quality (PESQ) scores in various diffuse noise environments, and did not degrade the speech quality under the presence of directional interference, although the proposed method utilizes the coherence information. Secondly, we propose a deep neural network (DNN)-based postfitler for multichan- nel speech enhancement, integrating DNN-based parameter estimation for multichannel speech enhancement utilizing parameters estimated from the beamforming stage in the parameter estimation for the postfilter. Specifically, the a posteriori SPP, the speech PSD, and the noise PSD in estimated in the beamforming stage are utilized to im- prove the parameter estimation in the postfiltering stage. We also adopt the dual-path conformer structure with an encoder and decoders to enhance the performance. Ex- perimental results show that the proposed method marked the best wideband PESQ scores on the CHiME-4 dataset among all compared methods. ©2025 Sein Cheong ALL RIGHTS RESERVED – iii –|음성 향상 기술은 다양한 음향 환경에서 잡음을 억제하고 음성 신호의 품질과 명료 성을 개선하는 기술로, 최근 음성 인식, 모바일 통신 및 보청기 등 실제 응용 분야에서 수요가 지속적으로 증가하고 있다. 입력 신호의 스펙트럼-시간 정보만을 활용하는 단일 채널음성향상기법과달리,다채널음성향상기법은여러마이크로폰에서얻어진공간 정보를 추가적으로 활용함으로써 더욱 우수한 성능을 얻을 수 있다. 다채널 음성 향상의 대표적 구성 방법 중 하나는 최소 분산 비왜곡 응답(minimum-variance distortionless response, MVDR) 빔포머(beamformer)와 같이 음원의 공간 정보를 활용하는 공간 필터 (spatial filter)를 먼저 적용하고, 공간 필터의 출력에 단일 채널 후처리 필터(postfitler) 를 추가로 적용하여 잔여 잡음을 제거하는 방식이다. 본 학위 논문에서는 공간 정보와 시간-주파수 정보를 효과적으로 결합한 다채널 음 성 향상 후처리 기법들을 제안하였다. 먼저 두 채널 음성 향상을 위한 통계 모델 기반 후처리 기법을 제안하였다. 본 방법은 통계 모델 기반의 단일 채널 잡음 전력 스펙트럼 밀도(power spectrum density, PSD) 추정기와 두 마이크로폰 신호의 일관성(coherence) 을 이용한 두 채널 잡음 PSD 추정기를 결합한다. 두 마이크로폰 신호 간의 coherence 의 크기를 활용하여 coherence기반 사후 음성 존재 확률(a posteriori speech presence probability, SPP)을 모델링하고 이를 통계 모델 기반의 단일 채널 a posteriori SPP를 결합하였다. 그 다음, 음성 존재 불확실성을 반영하여 coherence기반의 두 채널 잡음 PSD 추정기를 유도하고, 이를 통계 모델 기반 잡음 PSD 추정기와 a posteriori SPP를 활용하여 결합한다. 최종적으로 결합된 잡음 PSD 추정치와 a posteriori SPP를 이용하 여최적변형로그스펙트럼진폭(optimally modified log-spectral amplitude, OM-LSA) 이득 함수를 계산하여 후처리 필터로 사용하였다. 이를 통해 빔포머 출력 신호에 남아있 는 잡음의 PSD 추정 정확도를 높였으며, 다양한 확산 잡음(diffuse noise) 환경에서 음성 품질(PESQ 점수)을 향상시켰다. 두 번째로는 심층 신경망(deep neural network, DNN) 기반 다채널 음성 향상 후처 리 기법을 제안하였다. 본 방법에서는 빔포밍 단계에서 추정된 음성 PSD, 잡음 PSD, a posteriori SPP 등의 파라미터를 후처리 단계의 파라미터 추정 과정에 통합하여 공간 정보와 스펙트럼-시간 정보를 종합적으로 활용하였다. 추가로, dual-path conformer 네 트워크 구조를 도입하여 파라미터 추정의 정확도와 계산 효율성을 동시에 향상시켰다. 실험 결과, CHiME-4 데이터셋에서 제안한 방법이 기존 방법 대비 가장 높은 음성 품질 (PESQ 점수)을 나타냈다. 결론적으로, 본 논문에서 제안한 기법들은 단일 채널 및 다채널 음성 향상 기술과 딥러닝 접근법을 효과적으로 결합하여 낮은 계산 복잡도에서 강건한 성능을 달성하였 다. 이에 따라 제안된 방법들은 음성 인식, 모바일 통신, 보청기 등의 실제 음성 처리 분야에서 실질적으로 활용될 수 있을 것으로 기대된다. ©2025 정 세 인 ALL RIGHTS RESERVED
URI
https://scholar.gist.ac.kr/handle/local/31941
Fulltext
http://gist.dcollection.net/common/orgView/200000887925
공개 및 라이선스
  • 공개 구분공개
파일 목록
  • 관련 파일이 존재하지 않습니다.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.