OAK

다채널 마이크로폰 배열에서의 DNN 기반 빔형성에 관한 연구

Metadata Downloads
Author(s)
김태우이건우ㅍ이건우김홍국
Type
Conference Paper
Citation
2019 한국음성학회 봄 학술대회, pp.69
Issued Date
2019-06-01
Abstract
근래에 다채널 마이크로폰을 활용한 원거리 음성인식, 음원 위치추정, 잔향 제거 등 많은 연구가 진행되고 있다. 이를 위한 전처리 기법의 하나인 빔형성은 다채널 마이크로폰 배열에 있어서 음성 또는 오디오 신호가 발생하는 특정 방향에 집중함으로써 그 음질을 향상시킨다. 그러나, 종래의 빔형성 기법은 설계된 특정 배열 구조에 종속적이 며, 따라서 임의의 마이크로폰 배열 구조에 적용될 경우 그 성능이 저하되기 때문에 마이크로폰 배열 구조에 맞게 다시 설계해야하는 단점이 있다. 본 연구에서는 마이크로폰 배열 구조에 상관없는 심층 신경망 기반의 minimum variance istortionless response (MVDR) 빔형성 가중치 추정 기법을 제안한다. 먼저, 훈련 데이터 생성을 위해 특정 마이크로폰 배열 구조의 room impulse response (RIR) 와 합성곱을 한다. 이 때, RIR이 적용된 모든 채널에 무작위로 시간 지연을 준다. 이를 통해, 다양한 마이크로폰 배열 구조의 데이터를 얻는 효과를 얻을 수 있다. 또한, REVERB Challenge에서 제공하는 훈련 잡음을 더해 훈련 데이터를 증강한다. 심층 신경망 모델의 입·출력은 각각 생성된 훈련 데이터의 음성이 존재하는 구간의 프레임당 채널 간 generalized cross correlation-phase transform (GCC-PHAT)과 MVDR 빔형
성 가중치이다. 심층 신경망 모델의 입력층은 234개의 노드, 출력층은 2,056개의 노드로 구성된다. 또한, 각각 2,700개의 노드로 구성된 4개의 은닉층과 rectified linear unit(ReLU) 활성화 함수로 구성되어 있다. 성능 평가를 위해 REVERB Challenge 코퍼스의 시뮬레이션 데이터를 사용하였으며, 학습된 배열 구조와 다른 배열 구조의 테스트 데이터를 사용하여 기존의 MVDR 빔형성 기법과 제안된 기법을 적용하였다. Cepstral distance (CD) 비교 결과, 제안된 기법이 기존의 MVDR 빔형성 기법에 비해 0.71dB 더 나은 성능을 보였다.
Publisher
한국음성학회
Conference Place
KO
서울 연세대학교 세천년관
URI
https://scholar.gist.ac.kr/handle/local/23019
공개 및 라이선스
  • 공개 구분공개
파일 목록
  • 관련 파일이 존재하지 않습니다.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.