OAK

Beamforming, Pre- and Post-Processing Algorithms for Robust Deep Learning-Based Speech Enhancement

Metadata Downloads
Abstract
The speech enhancement task aims to remove noise signals from noisy signals while preserving speech signals and is an essential part of several speech-related applications such as automatic speech recognition, mobile communication, and hearing aids. Many efforts have been conducted to robustly perform speech enhancement in various noise environments over the last few decades. Especially, the introduction of deep learning techniques has led to a new paradigm in the speech enhancement area. Early studies on deep learning-based speech enhancement have been mainly conducted for single-channel speech enhancement and achieved tremendous success. Based on the success of deep learning-based single-channel speech enhancement, in recent years, many studies to apply deep learning techniques to multi-channel speech enhancement have been actively conducted. It has been known that multi-channel speech enhancement can achieve better performance than the single-channel approach since it can utilize spatial information as well as spectral information.

However, conventional deep learning-based speech enhancement algorithms have some problems. The first problem is that conventional deep learning-based multi-channel speech enhancement approaches may incur phase distortion in the speech and noise spatial covariance matrices (SCMs), which are parameters of the adaptive beamformers, such as the generalized eigenvalue (GEV) and minimum-variance distortionless response (MVDR) beamformers, resulting in speech distortion in the beamformed signal. To encourage the performance of the beamformed signal, the conventional deep learning-based beamforming has usually used deep learning-based post-filtering for the beamformed signal additionally. However, the introduction of the post-filtering results in an increase in the total model size and may limit employment in resource-limited applications. The second problem results from the conventional training approach that trains a deep learning model using a large training set encompassing a wide range of environmental conditions such as noise types and signal-to-noise ratios (SNRs) to encourage the performance for various environmental conditions. Although this approach has significantly improved the performance of speech enhancement, regularizing a deep learning model to perform well for every environmental condition is not a trivial task, often resulting in speech distortion and residual noise. The third problem is an over-smoothing effect that is usually observed in the enhanced speech obtained by deep learning-based speech enhancement, especially in low-SNR environments. This over-smoothing problem diminishes the dynamic range of speech signals, resulting in distorted and less intelligible speech.

To alleviate these problems, this dissertation proposes new methods for robust deep learning-based speech enhancement. First, we propose a deep learning-based beamforming method for multi-channel speech enhancement, which can circumvent the computation of the speech and noise SCMs. The proposed beamforming approach is realized by newly defining parameters of the MVDR beamformer through factorization and directly estimating the defined parameters using a deep learning model. Experimental results showed that the proposed beamforming approach outperformed conventional deep learning-based beamforming approaches even with no post-filtering.

A second proposed method is a two-stage approach to deep learning-based speech enhancement that works effectively for a wide range of SNR. The first stage consists of deep learning-based speech enhancement modules specialized for specific narrow ranges of SNR, which can provide complementary information on speech and background noise. The second stage takes the noisy features and the output of the deep learning-based speech enhancement modules in the first stage to estimate the clean speech more accurately. Experimental results showed that the proposed two-stage approach outperformed single stage speech enhancement with a much smaller number of parameters.

Third, we propose a target exaggeration method for deep learning-based speech enhancement to alleviate the over-smoothing problem. The proposed target exaggeration method can be implemented in two ways: target exaggeration in the cost function and target exaggeration with an additional DNN. Experimental results showed that the proposed target exaggeration method improved the quality of speech produced by the deep learning-based speech enhancement and outperformed other approaches to alleviate the over-smoothing problem.|음성 향상은 잡음이 섞인 음성 신호로부터 음성 신호는 보존하면서 잡음 신호만을 제거하는 기술로써 음성 인식, 이동 통신, 청각 보조 장치와 같은 다양한 음성 관련 제품들에서 필수적인 역할을 담당한다. 지난 수십년동안 다양한 잡음 환경에서 음성 향상 기술을 강인하게 동작시키기 위한 노력들이 꾸준히 있어왔다. 특히 딥러닝 기술의 도입은 음성 향상 분야에서 새로운 패러다임을 이끌었다. 초기 딥러닝 기반 음성 향상 연구들은 주로 단채널 음성 향상을 위해 수행되어 왔으며 엄청난 성공을 이뤄냈다. 딥러닝 기반 단채널 음성 향상의 성공을 기반하여, 최근에는 딥러닝 기술을 다채널 음성 향상에 적용하기 위한 연구들이 활발히 진행되고 있다. 다채널 음성 향상은 스팩트럼 정보 뿐만 아니라 공간 정보까지도 활용할 수 있기 때문에 단채널 음성 향상보다 더 좋은 성능을 성취할 수 있다고 알려져 있다.

그러나 전통적인 딥러닝 기반 음성 향상 알고리듬은 몇가지 문제들을 갖고 있다. 첫 번째 문제는 전통적인 딥러닝 기반 다채널 음성 향상 접근들은 일반화된 고유값(generalized eigenvalue)과 최소 분산 비왜곡 응답(minimum-variance distortionless response)과 같은 적응형 빔포머의 파라미터인 음성과 잡음의 공간 공분산 행렬(spatial covariance matrix)에서 위상 왜곡을 발생시킬 수 있으며, 결과적으로 빔포밍 된 신호의 음성 왜곡을 초래한다. 빔포밍 된 신호의 성능을 향상시키기 위해, 전통적인 딥러닝 기반 빔포밍 방법은 보통 빔포밍 된 신호에 대한 딥러닝 기반 후처리를 추가적으로 사용해왔다. 하지만 후처리의 도입은 전체 모델 크기를 증가시켰고 계산 자원이 부족한 어플리케이션들에 대한 적용을 제한할 수 있다. 두 번째 문제는 다양한 잡음 환경에 대한 강인한 음성 향상을 목적으로 다양한 잡음 유형 및 신호 대 잡음비(signal-to-noise ratio)와 같은 광범위한 환경 조건을 포함하는 대규모 훈련 세트를 이용해 딥 러닝 모델을 훈련하는 기존의 훈련 접근 방식에서 기인한다. 이러한 훈련 접근 방식이 현저하게 음성 향상의 성능을 향상시켰지만, 모든 환경 조건에 대해 잘 수행되도록 딥 러닝 모델을 정규화하는 것은 쉬운 일이 아니었고 종종 음성 왜곡과 잔여 잡음을 발생시켰다. 세 번째 문제는, 특히 낮은 신호 대 잡음비 환경에서, 딥러닝 기반 음성 향상으로 얻은 음성 신호에서 일반적으로 발견되는 과평활화 현상이다. 이 과평활화 문제는 음성 신호의 동적 범위를 감소시켜 왜곡되고 낮은 명료도의 음성을 만든다.

이러한 문제들을 완화시키기 위해, 본 학위논문에서는 강인한 딥러닝 기반 음성 향상을 위한 새로운 방법들을 제안한다. 첫 번째, 우리는 음성과 잡음의 공간 공분산 행렬 계산을 우회할 수 있는 다채널 음성 향상을 위한 딥러닝 기반 빔포밍 방법을 제안한다. 제안된 빔포밍 접근은 인수분해를 통해 최소 분산 비왜곡 응답 빔포머의 매개변수를 새롭게 정의하고 이 매개 변수들을 딥러닝 모델을 사용해 직접 추정함으로써 구현된다. 실험 결과는 제안된 빔포밍 접근 방식이 심지어 추가적인 후처리 없이도 기존의 딥러닝 기반 빔포밍 접근 방식을 능가함을 보여줬다.

두 번째 제안된 방법은 넓은 범위의 신호 대 잡음비에 대해 효과적으로 동작하는 딥러닝 기반 음성 향상을 위한 2단계 접근이다. 1단계는 특정한 좁은 범위의 신호 대 잡음비에 대해 특화된 복수의 딥러닝 기반 음성 향상 모듈들로 구성되며 음성과 배경 잡음의 상호보완적인 정보를 제공한다. 2단계는 잡음이 섞인 음성 신호의 특징과 첫 번째 단계에서의 딥러닝 기반 음성 향상 모듈들의 출력을 취하여 깨끗한 음성 신호를 보다 정확하게 추정한다. 실험 결과는 제안된 2단계 접근 방식이 훨씬 더 적은 수의 매개변수로도 기존의 1단계 음성 향상의 성능을 능가함을 보여줬다.

세 번째, 우리는 과평활화 문제를 완화시키기 딥러닝 기반 음성 향상을 위한 목표 과장 방법을 제안한다. 제안된 목표 과장 방법은 비용 함수에서의 목표 과장과 추가적인 심층신경망을 활용한 목표 과장, 두가지로 수행될 수 있다. 실험 결과는 제안된 목표 과장 방법이 딥러닝 기반 음성 향상으로 얻은 음성 신호의 음질을 향상시키고 과평활화 현상을 완화시키기 위한 다른 방법들을 능가함을 보여줬다.
Author(s)
Hansol Kim
Issued Date
2022
Type
Thesis
URI
https://scholar.gist.ac.kr/handle/local/18964
공개 및 라이선스
  • 공개 구분공개
파일 목록
  • 관련 파일이 존재하지 않습니다.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.