OAK

Cross-Corpus Speech Emotion Recognition Based on Deep Learning Methods

Metadata Downloads
Abstract
음성감정인식은 화자의 억양이나 말의 빠르기 등의 정보를 통해 행복, 분노, 슬픔 등 에 대한 감정상태를 예측하는 기술이다. 감정인식 기술을 통해 병원에서 환자의 심리적 상태를 자동으로 기록하거나 콜센터 상담직원을 비롯한 텔레마케터의 감정노동을 덜어 주는 데 도움을 줄 수 있다. 최근에는, 감정적 음성합성을 위해 음성감정인식 모델로부터 임베딩을 활용하는 연구도 찾아볼 수 있다. 감정은 음성신호로부터 화자, 지역에 따른 방언, 언어적 정보에 따라 다양하게 표현될 수 있다. 하지만 음성감정인식 모델을 연구하는 데 필요한 감정인식 데이터셋은 보통 작은 규모로 이루어져 다양성이 제한되어있다. 감정연기를 할 연기자를 고용하고 어떤 감정으로 표현되었는지를 일반화하기 위해 여러 청취자를 고용하는 데 큰 비용이 들기 때문이다.

일반적으로 하나의 데이터셋에 대해 학습, 검증, 평가셋을 정의하고 음성감정인식 모델의 성능향상을 위한 연구를 수행해왔다. 이로부터 개발된 모델은 실제 어플리케이션에 적용했을 때, 다양한 상황의 샘플에 대해 학습하거나 평가하지 않았기 때문에 좋은 성능을 보장하기 어렵다. 대표적인 감정인식 데이터셋인 IEMOCAP의 경우 10명의 화자가 대화 상황에 대해 상황을 연기를 수행하여 약 만 개의 샘플을 수집하였다. CREMA-D의 경우 91명의 화자가 12가지 문장에 대해 감정 연기를 수행한 발화 샘플을 수집하였다. 각각의 데이터셋을 이용해 개발된 모델은 다양한 화자와 문장에 대해 학습하거나 평가하지 않았기 때문에 각 요소에 대해 취약한 성능을 보일 수 있다. IEMOCAP과 CREMA-D 외에도 작은 크기의 감정인식 데이터셋이 여러 차례 만들어졌다. 음성감정인식 모델을 실제 어플리케이션에 도입할 수 있는지 성능을 검증하기 위해 기존의 하나의 코퍼스만을 이용해 학습하고 평가하는 단일 코퍼스 내 평가 상황(within-corpus scenario)에서 벗어나서, 학습 중에 사용한 적 없는 데이터셋에 대해 평가하는 크로스 코퍼스(cross-corpus)상황을 보인다. 여러 감정인식 데이터셋을 활용함으로써 모델의 성능을 검증 할 수 있을 것이다.

본 학위논문에서는 실제 상황에서 유익한 감정인식 방법이 무엇인지 확인하기 위해 딥러닝 방법 기반의 크로스 코퍼스 음성감정인식에 대한 문제를 두 가지 상황에 대해 다룬다. 첫 번째로 비지도 상황(unsupervised scenario)을 고려한다. 학습 중에 타겟 코퍼스의 감정레이블은 주어지지 않았지만 샘플은 주어져 있는 상태에서, 오토인코더 (autoencoder)또는도메인적대적훈련법(domain adversarial training)을사용하는경우가 대표적인 방법으로 소개되었다. 본 학위논문에서는 소수샷학습법(few-shot learning)과 도메인 적대적 훈련법을 결합함으로써 크로스 코퍼스 상황에서 성능향상을 보인다. 두 번째로 다중 코퍼스를 사용할 수 있는 상황(multi-corpus scenario)을 다룬다. 감정인식 모델을 학습하는 데 사용 할 수 있는 데이터셋이 여럿 주어져 있고 가능한 많은 샘플을 학습에 사용하는 것이 성능향상에 도움이 된다고 일반적으로 알려져 있다. 하지만, 다중코퍼스를 학습에 사용할 때 데이터셋마다 다른 특성을 고려한 최적화 전략을 고려하지 않는다면 특정한 데이터셋에 과적합 되어 임의의 데이터셋에 대해 감정인식 성능이 저하될 수 있다. 본 학위논문에서는 크로스 코퍼스에 대한 감정인식 모델의 성능향상을 보이는 코퍼스별 가중치(corpus-wise weights)를 분류 손실함수에 결합하는 방법을 소개한다. 더불어, 손실함수에 대해 상대적 어려움을 고려하여 샘플별 상대적 가중치를 부여하는 손실함수(relative difficulty-aware loss)를 소개한다. 그뿐만 아니라, 복합모달 감정데이터셋에 대한 감정 라벨을 음성감정인식에서 이용하면서 라벨의 신뢰도가 저하되는 것을 염두하여 신뢰도에 대한 라벨링(labeling reliability)을 제안하며 크로스 코퍼스 상황에서 성능향상을 보인다.|Speech emotion recognition (SER) is a technique that predicts emotional states such as happy, sad, and angry, via spoken utterances. The SER enables the automatical psychological state reporting of patients in hospitals, cooperating responses of telemarketers from malicious customers, and providing style embedding on text-to-speech synthesis systems. Humans express emotions with a variety of accents, speed of speech, dialects, and linguistics, and recognize them by other people. Meanwhile, most emotion corpora consist of limited size including a small number of speakers and lexical information because hiring actors to express emotions costs a lot, and designing acting scenarios that are evenly distributed for various topics is difficult. Moreover, the annotation process requires multiple evaluators to determine emotion labels agreed upon by people enough since perceiving emotions is subjective thus collecting opinions.

Typically, SER methods have been studied with a single corpus, splitting it into training and test sets, which we call cross-validation. However, since there are a variety of emotional expressions in the world and the methods were not evaluated in various cases, we can not be confident that these methods perform well when we apply them in real applications. For example, IEMOCAP includes 10 speakers with 10,039 utterances. An SER model that is evaluated on the IEMOCAP dataset may be insufficient to cover unseen speakers. On the other hand, CREMA-D includes 91 speakers with 12 sentences. The SER model trained on this dataset may be robust to multiple speakers while the model would not work on real conversations that are full of multiple spontaneous utterances. In similar ways, the small size of corpora has been collected several times. For the practical SER, SER studies move out from the scope of within-corpus to the cross-corpus scenario, which tests the method with other corpora, which were not used for training. We can simulate the cross-corpus scenario with small sizes but multiple emotion corpora.

To figure out which methods are beneficial for real situations, in this dissertation, two cases of cross-corpus SER based on deep learning methods are addressed. First, to reduce the domain gap between the training and testing set, we assume that unlabeled target samples in the test corpus are available in the training. We can learn the feature encoder of the SER model with the samples using autoencoder and domain adversarial training method. In this case, we demonstrate a combination of few-shot learning and domain adversarial training is effective on the three cross-corpus scenarios including cross-linguals. Second, to show the general ability of the SER model, we employ multiple corpora in training since it is well-known that training with many samples increases the performance of the neural-based model. Using the samples in the multiple corpora as the training set, we can optimize the SER model with regularization methods, such as label smoothing, confident penalty, autoencoder, and focal loss. In this case, we introduce corpus-wise weights, pseudo labeling on speech corpus, relative difficulty aware loss, and labeling reliability, which improves the SER performance on the unseen corpora with their incorporation.
Author(s)
Youngdo Ahn
Issued Date
2024
Type
Thesis
URI
https://scholar.gist.ac.kr/handle/local/19041
공개 및 라이선스
  • 공개 구분공개
파일 목록
  • 관련 파일이 존재하지 않습니다.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.