OAK

화자정보 활용을 위한 듀얼 어텐션 기반 화자 검증

Metadata Downloads
Alternative Title
Duality Attention Mechanism utilizing Speaker Characteristics for Speaker Verification
Abstract
화자 검증이란 등록된 화자의 음성 샘플을 기반으로 신원을 주장하는 사람을 검증하는 프로세스이다. 딥러닝 기술 발전으로 인해 화자 검증 시스템의 많은 진보가 있었으며, 화자 간의 특징을 더욱이 분간하기 위한 다양한 연구들이 보고되었다. 일반적으로, 화자 임베딩 추출기는 프레임-레벨 단위 특징 추출기 와 발화-레벨 단위 통합기로 구성된다. 특히, 다양한 커널로 구성된 합성곱 신경망 (CNN)은 입력으로 들어온 어쿠스틱 특징 표현의 인접한 프레임 간의 정보를 학습함으로써 화자의 특성을 잘 반영하여 화자 임베딩 추출기로 사용되고 있다. 그러나, 이러한 합성곱 연산은 커널 단위로 화자의 특성 및 패턴을 반영하기 때문에 시간-주파수에 대해 일부분의 정보만을 포착한다는 단점을 가지고 있으며, 전 시간 영역에 걸쳐 분포하고 있는 화자의 억양과 음소와 같은 중요한 정보는 고정된 커널 사이즈로 인해 다소 덜 포착한다는 한계점을 가지고 있다. 추가적으로, 시간-주파수와 채널 간의 상관관계 역시 다루어지지 않고 있다. 한편, 화자 검증 시스템에 어텐션 기법을 도입한 논문들이 많이 제안되었다. 특히, SENet [1] 과 같은 특징 표현의 채널간 내부 상관관계를 고려하여 중요한 채널에 가중치를 부여한 심플 어텐션 기법이 화자 임베딩의 성능을 향상시켰으며, 이는 화자 임베딩이 더욱이 화자 간의 특성을 잘 구별 있게 하였다. 하지만, SENet 역시 시간-주파수와 채널 간의 관계를 고려하지 않고 있으며, SENet 연산과정에서 시간 축과 주파수 축에 대하여 average pooling을 적용하였기 때문에 각 축에 대한 중요한 화자 정보 역시 손실되었다. 위와 같은 문제를 해결하기 위해, 본 논문에서는 시간-채널 상관관계 와 주파수-채널 상관관계를 모두 고려하는 듀얼 어텐션 기반 모듈을 제안한다. 이를 통해 중요한 채널에 가중치를 더욱 부여하면서 동시에 전 시간에 걸쳐 있는 문맥 정보 및 채널, 주파수, 시간 상관관계를 모두 고려함으로써 화자 검증 시스템의 성능을 향상시킬 수 있는 연구를 진행하였다.
Author(s)
Shin, Jong WonHan, SangwookCheon, YoungjuKim, Minseung
Issued Date
2022-02-11
Type
Conference Paper
URI
https://scholar.gist.ac.kr/handle/local/21944
Publisher
한국통신학회
Citation
2022년도 동계종합학술대회
Conference Place
KO
Appears in Collections:
Department of Electrical Engineering and Computer Science > 2. Conference Papers
공개 및 라이선스
  • 공개 구분공개
파일 목록
  • 관련 파일이 존재하지 않습니다.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.