Speech Coding Methods via Sub-Nyquist Sampling and Redundancy-Reduced Residual Vector Quantization
- Author(s)
- Eunkyun Lee
- Type
- Thesis
- Degree
- Doctor
- Department
- 정보컴퓨팅대학 전기전자컴퓨터공학과
- Advisor
- Shin, Jong Won
- Abstract
- Recent research on speech coding with deep learning techniques to improve the bandwidth efficiency has received tremendous attention. Many deep learning based post-processing models such as coded speech enhancement (CSE) and speech bandwidth extension (BWE) have demonstrated their capability to restore the speech signals of decent quality from the coded signals by a legacy codec such as Opus and EVS. Moreover, recently proposed neural speech and audio codecs have established a novel milestone in speech coding as they have shown noticeable quality of compressed speech even with extremely low bitrates. Based on the deep learning based speech processing methods, this dissertation presents speech coding methods via sub-Nyquist sampling and redundancy-reduced residual vector quantization.
In the first part of the dissertation, an improved Alias-and-Separate (iAaS) speech coding framework is proposed to reduce or remove the algorithmic delay of the original Alias-and-Separate framework, while maintaining or even enhancing the performance. To further enhance the quality of the reconstructed speech, the utilization of a generative vocoder and modification of the multi-resolution short-time Fourier transform (MR-STFT) loss function are also presented. Experimental results showed that the proposed iAaS system outperforms the baseline systems including the original AaS, streaming SEANet-based models, and other speech codecs with respect to the speech quality or bandwidth efficiency.
In the second part of the dissertation, a redundancy-reduced residual vector quan- tization (R3VQ) is proposed to improve the coding efficiency in neural speech coding based on residual vector quantization (RVQ) by introducing a neural network called a refiner before each vector quantizer in the RVQ and reducing the redundancy in compu- tation of the residuals. To more effectively train the refiners and update the codebooks and therefore stabilize the training procedure of the R3VQ, a part-wise (PW) train- ing scheme is also presented. Experimental results on the bitrate settings of 0.8, 1.6, and 3.2 kbps verified that the R3VQ-based neural speech codec trained with the PW scheme outperforms the baseline codecs.| 대역폭 효율성을 향상시키기 위해 딥러닝 기법을 도입한 최신 음성 부호화 연구들 이 주목받고 있다. 부호화 음성 향상 및 음성 대역 확장 기술과 같은 많은 딥러닝 기반 후처리 모델들이 Opus 혹은 EVS 같은 기존의 음성 코덱으로 부호화된 음성 신호로 부터 고품질의 음성 신호를 복원할 수 있다는 사실이 입증되어 왔으며, 최근 제안되는 뉴럴 음성 및 오디오 코덱은 극도로 낮은 비트율로도 양질의 음성 신호를 부호화 및 복호화할 수 있음을 보이며 음성 부호화에 있어 중요한 이정표를 세웠다. 기존 딥러닝 기반 음성신호처리 방법을 기반으로, 본 학위논문에서는 나이퀴스트 이하 샘플링(sub- Nyquist sampling) 및 중복 저감 잔차 벡터 양자화(redundancy-reduced residual vector quantization)를 이용한 음성 부호화 방법을 제안한다.
논문의 첫 부분에서는 성능을 유지하거나 향상시키는 동시에 기존 Alias-and-Separate 음성 부호화 체계의 알고리즘적 지연을 감소시키거나 제거하기위해 improved Alias-and-Separate 체계를 제안한다. 복원된 음성 신호의 품질을 더욱 향상시키기위해, 생성형 보코더를 이용하는 방법과 다중-해상도 단기 푸리에 변환 손실 함수의 수정 방법 또한 제안한다. 실험 결과, 제안된 improved Alias-and-Separate 시스템은 기존 Alias-and-Separate, streaming SEANet 기반 모델, 타 음성 코덱들보다 음성의 품질 혹은 대역폭 효율성 측면에서 좋은 성능을 나타냈다.
논문의 두번째 부분에서는 잔여 벡터 양자화(residual vector quantization) 기반 뉴럴 음성 부호화 시 각 벡터 양자화기 이전에 정제기를 도입하여 중복 성분을 저감함으로써 뉴럴 음성 부호화의 효율을 개선하기 위해 중복 저감 잔차 벡터 양자화를 제안한다. 더욱 효과적인 정제기의 학습과 코드북의 갱신 및 그로인한 중복 저감 잔차 벡터 양자화기 훈련 과정의 안정화를 위해 부분별(part-wise) 훈련 방법 또한 제안한다. 0.8, 1.6, 3.2 kbps 환경에서의 실험 결과, 부분별 훈련 방법을 적용한 중복 저감 잔차 벡터 양자화 기반 음성 코덱이 베이스라인 코덱에 비해 우수한 성능을 보였다.
- URI
- https://scholar.gist.ac.kr/handle/local/33828
- Fulltext
- http://gist.dcollection.net/common/orgView/200000941439
- 공개 및 라이선스
-
- 파일 목록
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.