OAK

딥 러닝 오토인코더 기반 보코더 파라미터 감축

Metadata Downloads
Author(s)
이정혁김홍국김선교
Type
Conference Paper
Citation
2019 한국음성학회 봄 학술대회, pp.131
Issued Date
2019-06-01
Abstract
보코더는 음성에서 특징 파라미터를 추출하고, 이를 비트스트림으로 양자화하여 전송하고 이를 복원한다. 이 때, 파라미터를 auto-encoder 구조의 bottleneck feature를 통하여 감축시킬 수 있다. 본 논문에서는 표준 mixed-excited linear prediction (MELP) 보코더에 대하여, 딥러닝 기반의 auto-encoder (AE) 구조를 통한 파라미터 감축 방법을 연구한다. 우선, MELP 보코더를 적용하여 각 22.5ms의 음성 프레임마다 29개의 파라미터를 추출한다. 다음으로, 이렇게 추출된 29차원의 파라미터 벡터를 입력 및 출력으로 하는 AE를 구성한다. 본 논문에서 사용된 AE는 29개 노드의 입력층은 두 개의 은닉층(여기서 각 은닉층은 64개, 8개 노드를 갖으며 전연결층 형태임)과 16개 노드를 갖는 전연결층을 병렬 구조의 skip-connection에 공유된다. 이 때, 8개 노드를 갖는 두번째 은닉층과 skip-connection 계층을 출력으로 하는 encoder와, 이로부터 획득된 24개의 파라미터를 이용하는 decoder로 나누어 생각할 수 있다. 또한, 8개 노드를 가지는 은닉층과 16개 노드를 가지는 skip-connection은 각기 29개 노드를 갖는 은닉층에 연결되며, 해당 은닉층의 각 29개의 출력을 합하여 29개의 파라미터를 회귀 출력하는 출력층으로 구성된 다. 이와 같은 방법으로 기존의 29개 파라미터는 24개로 감축된다.
성능 평가를 위해, TIMIT 음성 데이터베이스 중 6,300문장을 AE 훈련 및 validation
에 사용하였으며, 20개의 테스트 문장에 대해 AE로 디코딩한 후, MELP 합성한 음원
에 대해 PESQ 점수를 측정하였다. 그 결과, 29개 파라미터를 갖는 표준 MELP 보코더
의 경우 평균 PESQ 점수가 2.885에 대비, AE로 24개로 파라미터를 줄인 후 MELP 디
코딩을 수행한 경우 2.828의 평균 PESQ 점수로 유사한 결과를 얻을 수 있었다.
Publisher
한국음성학회
Conference Place
KO
서울 연세대학교 세천년관
URI
https://scholar.gist.ac.kr/handle/local/23018
공개 및 라이선스
  • 공개 구분공개
파일 목록
  • 관련 파일이 존재하지 않습니다.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.