OAK

Spatial Cues based Signal Processing for Voice Activity Detection and Speech Enhancement

Metadata Downloads
Author(s)
Soojoong Hwang
Type
Thesis
Degree
Doctor
Department
대학원 전기전자컴퓨터공학부
Advisor
Shin, Jong Won
Abstract
음성 향상 연구가 많은 관심을 받으면서 단일 채널 환경에서 음성 신호의 스펙트럼-시간적 특성을 활용하는 많은 방법이 오랫동안 제안되어 왔다. 음성 검출기(Voice activity detection, VAD) 또한 음성 코덱, pitch 추정, 음성 인식, 그리고 음성 향상을 비롯한 다양한 음성 관련 응용프로그램에서 활용되어 왔다. 그러나, 단일 마이크로폰을 활용하는 이러한 방법들은 공간적 다양성을 활용하지 못하기 때문에 경우에 따라 성능이 제한될 수 있다. 반면에, 여러 개의 마이크로폰을 사용하는 방법들은 공간 단서까지 활용하여 다양한 환경에서 더 나은 성능을 기대할 수 있다. 본 학위 논문에서는 공간 단서 기반 음성 검출 및 향상을 위한 신호처리 알고리즘을 제안한다.
채널 간 레벨 차이(Interchannel level difference, ILD) 및 채널 간 시간 차이(Interchannel time difference, ITD)를 주파수 도메인에서 나타내는 채널 간 위상 차이(Interchannel phase difference, IPD)와 같은 공간 단서들로부터 목표 음원의 위치에 대한 정보를 얻을 수 있다. 이에 따라 ITD와 ILD를 활용한 다양한 VAD 및 음성 향상 방법이 제안되어 왔는데, 특히 ILD 기반의 방법들은 마이크로폰들 간 잡음의 레벨은 거의 비슷한 반면 목표 음성의 신호는 레벨 차이가 있다고 가정하는데 마이크로폰을 2개 이상 갖춘 모바일 장치를 대표적인 예로 들 수 있다. 음원이 마이크로폰으로부터 멀리 떨어져 있는 경우에는 IPD가 주요한 공간 단서가 된다. 이에 따라 모바일 장치들을 위해서는 ILD와 ITD를 활용하는 VAD 방법, 원거리 음장 환경을 위해서는 IPD 기반 음질 향상 방법에 대해 초점을 맞추었다. 이에 따라 우선 기존에 제안되었던 공간 단서에 기반한 다양한 VAD 방법과 음성 향상 방법들에 대해서 알아보도록 한다.
두 번째로 ITD와 ILD 정보를 동시에 활용할 수 있는 이중 마이크로폰 VAD 알고리즘을 제안한다. 첫 번째 방식은 각자 다른 통계를 기반으로 하는 두 가지 VAD의 결과들을 논리 결합하는 방식을 통해 ITD와 ILD 정보를 결합하며, 두 번째는 도착 시간 차이 기반 feature와 레벨 차이 기반 feature를 입력으로 하는 support vector machine을 학습시켜 정보를 통합한 음성 검출 결과를 추정하는 방식이다. 사용되는 feature의 효율적인 조합을 찾기 위해 다양한 feature를 입력으로 하는 음성 검출기의 성능을 평가하여 사용하는 feature의 종류를 결정한다. 실험한 결과, 제안하는 VAD 알고리즘은 다양한 잡음 환경에서 단일 마이크로폰 표준 VAD과 기존에 제안되었던 ITD 또는 ILD 기반 VAD 방법들 보다 성능이 우수함을 보여준다.
셋 번째로 공간 단서에 기반한 기존 VAD 알고리즘의 성능을 높이기 위한 주파수 선택 접근 방식을 제안한다. 기존의 접근 방식들은 모든 주파수로부터 계산된 통계량에 고정 가중치를 적용하여 활용하지만 시간-주파수 bin의 정보 중 일부는 VAD의 성능을 저하시킬 수 있다. 신호의 에너지, ILD 및 ITD의 조건에 따라 신뢰할 수 있는 주파수 빈을 선택하는 방식을 제안하며, 기존의 VAD 방식들이 신뢰할 수 있는 bin만을 사용하여 음성 검출을 할 수 있도록 한 뒤 그 성능을 평가한다. 실험한 결과, 제안하는 주파수 선택 방식이 다양한 잡음 환경에서 기존 VAD 방법들의 성능을 크게 향상시킬 수 있음을 보여준다.
마지막으로 IPD의 분포를 사용하는 음성 존재 확률(Speech presence probability, SPP) 추정을 통해 이중 마이크로폰 음성의 음질을 향상시키는 방법을 제안한다. IPD는 음원이 원거리에 있는 환경에서 사용할 수 있는 대표적인 공간 단서이다. IPD 분포는 마이크로폰 신호의 각 주파수 bin에 있는 이산 Fourier 변환 계수가 Gaussian 분포를 따른다는 가정을 통해 유도된다. 이렇게 유도된 IPD 분포는 두 마이크로폰 신호의 스펙트럼 간 상관 계수의 phase와 magnitude로 매개변수화 할 수 있는데, 이는 각각 IPD의 평균 방향과 평균 방향의 집중 정도를 나타낸다. 음성의 유무에 따른 IPD 우도는 IPD의 확률 분포의 매개변수 설정을 통해 모델링할 수 있으며, IPD 우도를 이용하여 IPD 기반 SPP를 추정한다. Chain rule을 통해 a posteriori SPP가 IPD 기반 SPP를 이용하여 나타낼 수 있음을 보인다. 실험한 결과, 제안하는 방법은 다양한 유형 및 잡음 위치, 신호 대 잡음비, 잔향 시간 및 대상 소스 위치에서 IPD 정보를 활용하는 기존의 음성 향상 접근 방식들보다 성능이 우수함을 보여준다.|As speech enhancement has attracted a lot of research interest, many methods that exploit the spectral-temporal properties of speech signals in a single channel have been proposed over the past decades. Voice activity detection (VAD) can also be used in a variety of speech-related applications, including speech codecs, pitch estimation, speech recognition, and speech enhancement. However, the performances of these methods based on a single microphone can be limited in some cases because they cannot take advantage of the spatial diversity. On the other hand, approaches using multiple microphones can achieve better performance in a variety of speech-related applications. In this dissertation, we propose the spatial cues based signal processing algorithms for VAD and speech enhancement.
The spatial cues such as the interchannel level difference (ILD) and interchannel phase difference (IPD) representing the interchannel time difference (ITD) in the frequency domain can provide the information on the location of the desired source. Various methods utilizing the ITDs and the ILDs have been thus proposed. In addition, the ILD-based methods rely on the assumption that the speech signals have different levels at the microphones while the level difference of the noise should be equal. One prime example is the mobile devices equipped with two or more than microphones. The IPD information, meanwhile, can be the most important cue when the the sources are far away from the microphones. We focus on the VAD methods based on ITD and ILD for mobile devices, and the speech enhancement methods based on IPD for far-field scenarios. The conventional VAD and speech enhancement methods based on the spatial cues are firstly reviewed.
Secondly, we propose the dual microphone VAD algorithms that can exploit the ITD and ILD information simultaneously for the mobile phones. The first method is to logically combine the results from the VADs based on two different statistics. The second one is to train support vector machine taking both the time difference of arrival-based and level difference-based features as the input in order to estimate the voice activity. Various combination for the features are evaluated for the classifier. Experimental results show that the proposed VAD algorithms outperform a standardized single microphone VAD, VADs based on ITD or ILD in various noisy environments.
Thirdly, we propose a frequency selective approach for the conventional VAD algorithms based on the spatial cues. While the conventional approaches utilize the statistics from all frequency with fixed weight, the information from some time-frequency bins may degrade the performance of VAD. The reliable frequency bins are determined according to the conditions on the signal energy, ILD, and ITD. The reliable bins, which is expressed as the binary masks, are applied to the conventional VAD methods to consider the reliable bins only. Experimental results show that the frequency selective approach can significantly improve the performance of the conventional VAD methods in various noisy environments.
Fourthly, we propose the dual microphone speech enhancement based on a posteriori SPP estimation employing a circular distribution of IPD. The IPD becomes the most widely-used spatial cue in far-field scenarios. The IPD distribution is derived from a single assumption that the discrete Fourier transform coefficients in each frequency bin of the microphone signals follow a Gaussian bivariate distribution. The IPD distribution is parameterized with the magnitude and the phase of the correlation coefficient between the spectra of two microphone signals, which indicate the concentration degree and the mean direction of the IPD distribution, respectively. The IPD distribution is utilized to model the likelihoods for the IPDs during the speech presence and absence, which are used to estimate the IPD-based SPPs. The a posteriori SPPs are also estimated using the IPD-based SPP by the chain rule. Experimental results show that the proposed methods outperform the conventional speech enhancement approaches utilizing IPD information under various types and locations of noise, signal to noise ratio, reverberation times, and location of the target source.
URI
https://scholar.gist.ac.kr/handle/local/19686
Fulltext
http://gist.dcollection.net/common/orgView/200000884083
공개 및 라이선스
  • 공개 구분공개
파일 목록
  • 관련 파일이 존재하지 않습니다.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.