OAK

Semi-supervised Learning for Deep Neural Network-based Sound Event Detection

Metadata Downloads
Author(s)
Nam Kyun Kim
Type
Thesis
Degree
Doctor
Department
대학원 전기전자컴퓨터공학부
Advisor
Kim, Hong Kook
Abstract
Auditory information is necessary for us to perceive the environment around us. For example, your sense of hearing tells you that some cars are driving on the road, people babbling, beeps from a pedestrian crossing and etc. In other words, these sound events contain a tremendous amount of information about the environment and our auditory system is suitable for separating and understanding them. In order for intelligent systems to aim to interact with humans and their environment in a natural way, they must be able to recognize and understand sound events.

Machine learning algorithms perform well in several fields, and sound event detection models are typically trained on a supervised learning basis. To obtain the real-world performance of supervised learning-based models, sufficient amounts of labeled data are required. Robust labeling data requires sound event types and their starting and ending points. However, this robust labeled data collection has limitations that are expensive and time-consuming. Therefore, recently, many approaches for sound event detection (SED) task have been proposed to exploit weakly labeled and unlabeled data, which are relatively easy to collect. Weakly labeled data is recorded in the actual settings, but only the event types included in each audio clip are provided, and no start or end points are provided. The amount of weakly labeled data and unlabeled data are generally larger than strongly labeled data. To leverage the two data, we train a deep learning based SED model using strongly labeled data based on supervised learning and then infer the the weakly labeled data to generate the predicted strong labels. In other words, we mainly utilize the model as a label generator, and use to recreate predicted labels from weakly labeled and unlabeled data. However, there are limitations that degrade the model performance due to errors in predicted labels.

To overcome these limitations, this thesis first proposes three deep learning-based sound event detection techniques based on a new residual convolutional recurrent neural network model using acoustic data. 1) residual convolutional recurrent neural network model, 2) sound event detection model using quasi-supervised loss function 3) sound event detection model based on noisy student model. First, we propose an sound event detection model using the proposed residual convolutional recurrent neural network. Contributions through this thesis are summarized as follows.

First, this thesis proposes a sound event detection technique based on a residual convolutional neural network model. The sound event detection model consists of a combination of a residual convolutional neural network model and a recurrent neural network model. First, the residual convolutional neural network model constructs a convolutional neural network based on residual learning, and then connects CBAM (convolutional block attention module) as an attention module to improve the ability to express feature maps. This formed a convolutional neural network structure in image classification and sound event classification. Next, the extracted feature maps are connected to a recursive neural network for time series learning so that the feature maps extracted from the acoustic signals, which are time series data, can be learned. Finally, the classifier is trained by connecting fully connected layers. As a result of checking how detailed the feature map is expressed through this structure, through Grad-CAM (gradient-weighted class activation mapping), it was confirmed that the feature map was better expressed, which showed excellent sound event detection performance.

Second, we propose a two-stage sound event detection technique based on a quasi-map loss function for the use of weakly labeled and unlabeled data. First, we utilize a multi-instance learning technique to take advantage of weakly labeled data. That is, weakly labeled data is actually provided without accurate timing information for sound event annotations. Compared to strong labeling, even if it contains incomplete information, a larger amount of data can be obtained and it is worth using. As a method to utilize this, we propose a quasi-map loss function. It is first trained based on semi-supervised learning such as the mean teacher model. However, when training based on these models, predictive labels for weakly labeled data and unlabeled data are prone to errors. Therefore, a two-step approach was proposed. The first step of the proposed two-stage SED model, a residual convolutional recurrent neural network-based mean teacher model, serves as a pretrained model that generates labels for weakly labeled and unlabeled data. The second stage is then constructed using the same network architecture of the student model in the first stage mean teacher model according to the knowledge distillation technique. The first step is to predict a noisy label and timestamp for weakly labeled and unlabeled data. In the second step, the target labels for weakly labeled and unlabeled data are noisy or erroneous. So, in the second step, a quasi-map loss function is also proposed here to accommodate these noisy target labels. As a result of the experiment, the proposed two-stage sound event detection method based on the quasi-supervised loss function was found to be superior to the existing convolutional recurrent neural network-based sound event detection model for the DCASE 2019 and DCASE 2020 datasets.

Third, we propose a self-learning model using the Noisy student model as an extension of the previous two-stage sound event detection model. The self-learning model is a training method similar to the two-stage sound event detection model. First, we train an existing model based on semi-supervised learning. The trained model becomes the teacher model and, based on it, extracts the labels of weakly labeled and unlabeled data. Based on this, we train noisy students. Iteratively trains how to train the noisy student model back by converting the trained noisy student model to a teacher model. Model noise and feature noise methods are the noisy student methods used at this time. There are two types of model noise: dropout technique and stochastic depth technique. Dropout is a method that makes noisy in each layer unit, and stochastic depth is a block-by-block dropout, which utilizes Bernoulli distribution to determine whether to randomly pass through the corresponding layer for each convolutional layer. This is set randomly for each iteration during training and serves as model noise. Next, there is feature noise, and data augmentation is performed using a mixup technique and a specaugment technique as representative techniques. As a result of the experiment, the proposed two-stage sound event detection method based on the quasi-supervised loss function was found to be superior to the existing convolutional recurrent neural network-based sound event detection model for the DCASE 2019 and DCASE 2020 datasets. It also improved performance compared to the two-stage based sound event model.|소리는 일상 생활에서 중요한 정보를 포함하고 있으며 우리 주변에서 발생하는 개별 음향 사건에 따라 음향 장면을 이해하는데 큰 도움을 준다. 음향 장면 인지 분야는 기계학습을 기반으로 상황 인지하는 알고리즘이 다양하게 연구되고 있고, 다음향 환경에서의 음향사건을 분류하고 감지하는 음향 사건 감지 (sound event detection)가 주목받고 있다. 특히, 음향 사건 감지는 소리 감지와 관련된 광범위한 응용 분야에 영향을 미친다. 예를 들어 음향 모니터링은 유리 파손, 총기 발사, 타이어 미끄러짐 또는 자동차 충돌과 같은 물리적 사건을 감지 할 수 있고, 소셜 미디어 콘텐츠를 더 자세히 이해하기 위해 오디오 자막, 스마트 시티의 오디오 모니터링, 생활 지원 및 의료 등에 통합 될 수 있다.

여러 분야에서 기계학습 알고리즘이 좋은 성능을 보이고 있고, 음향 사건 검지 모델은 일반적으로 지도학습 기반으로 학습된다. 지도학습 기반 모델의 실용적 성능을 얻기 위해서는 충분한 양의 강력하게 라벨링된 데이터가 필요하다. 강력하게 라벨링된 데이터는 음향 사건 종류와 그 시작과 끝 시점을 필요로 한다. 하지만, 이러한 강력하게 라벨링된 데이터 수집을 위해서는 많은 비용과 시간이 소요된다는 한계가 있다. 따라서 최근에는 수집이 비교적 용이한 약하게 라벨링된 데이터와 라벨링되지 않는 데이터를 활용하는 기법들이 제시되고 있다. 약하게 라벨링된 데이터는 실제 환경에서 녹음된 데이터이지만 각 오디오 클립에 포함된 이벤트의 종류만 제공되고 시작, 종료 시점이 제공되지 않는다. 라벨링된 데이터는 데이터 양은 많으나 아무런 정보가 표기되어 있지 않다. 두 데이터을 활용하기 위해 지도학습 기반의 소량의 강력하게 라벨링된 데이터를 이용해서 모델을 훈련한 후, 두 데이터셋을 추론하여 예측 라벨을 생성한다. 즉 강력하게 라벨링된 데이터를 사용한 모델을 라벨 생성기로 활용하고, 하게 라벨링된 데이터와 라벨링되지 않은 데이터의 예측 라벨을 생성하여 재훈련에 활용하는 기법을 주로 사용한다. 하지만, 예측 라벨에 오류가 존재하기 때문에 모델의 성능이 저하되는 한계가 존재한다.

이러한 한계 극복을 위해 본 논문에서는 먼저 음향 데이터를 활용하여 새로운 잔차 합성곱 순환 신경망 모델을 기반으로 3가지 딥러닝 기반 음향 사건 감지 기법을 제안한다. 1) 잔차 합성곱 순환 신경망 모델, 2) 준지도 손실함수를 이용한 음향 사건 감지 모델 3) 잡음 학생 모델 기반 음향 사건 감지 모델. 첫째, 제안된 잔차 합성곱 순환 신경망 기반 음향 사건 감지 모델을 활용한 음향 사건 감지 모델을 제안한다. 본 학위논문을 통한 연구는 아래와 같이 요약된다.

첫째, 잔차 합성곱 순환 신경망 모델 기반의 음향 사건 감지 기법을 제안한다. 음향 사건 감지 모델은 잔차 합성곱 신경망 모델과 순환 신경망 모델의 결합으로 구성된다. 먼저 잔차 합성곱 신경망 모델은 잔차 학습을 기반으로 합성곱 신경망을 구성하고 다음으로는 주의 모듈로 CBAM (convolutional block attention module)을 연결하여 특징맵의 표현 능력을 향상시켰다. 다음으로 추출된 특징맵들은 시계열 학습을 위해 순환 신경망을 연결하여 시계열 데이터인 음향 신호로부터 추출된 특징맵을 학습할 수 있도록 하였다. 마지막으로 분류기는 완전 연결 층을 연결하여 학습된다. 본 구조를 통해 특징맵의 표현이 얼마나 자세한지 Grad-CAM (gradient-weighted class activation mapping) 을 통해 확인 결과, 제안된 음향 사건 검지 모델이 특징맵을 더욱 잘 표현함을 확인할 수 있었고, 이는 DCASE 2019, DCASE 2020 데이터셋에서 실험결과, Top ranked 모델이 기록한 음향 사건 감지 성능대비 event-based F1 score가 우수한 것으로 나타났다.

둘째, 약하게 라벨링된 및 라벨링되지 않은 데이터 활용을 위한 준지도 손실함수 기반의 두단계 음향 사건 감지 기법을 제안한다. 먼저, 약하게 라벨링된 데이터 활용을 위해 다중 인스턴스 학습 기법을 활용한다. 즉 약하게 라벨링된 데이터는 실제로 사운드 이벤트 주석이 정확한 타이밍 정보가 없이 제공된다. 강력한 라벨링에 비해 불완전한 정보가 포함되어 있더라도 더 많은 양의 데이터를 확보할 수 있으며 활용가치가 있다. 이를 활용하기 위한 방법으로 준지도 손실함수를 제안한다. 이는 먼저 평균 교사 모델 등의 준지도 학습을 기반으로 훈련한다. 하지만, 이러한 모델을 기반으로 훈련했을 때 약하게 라벨링된 데이터와 라벨이 없는 데이터에 대한 예측 라벨이 오류가 발생하기 쉽다. 따라서 2단계 접근 방식을 제안하였다. 잔차 합성곱 순환 신경망 기반 평균 교사 모델 인 제안 된 2 단계 SED 모델의 첫 번째 단계는 약하게 레이블이 지정된 데이터와 레이블이 없는 데이터에 대한 레이블을 생성하는 사전 훈련 된 모델 역할을 한다. 그런 다음 두 번째 단계는 지식 증류 기법에 따라 첫 번째 단계 평균 교사 모델에서 학생 모델의 동일한 네트워크 아키텍처를 사용하여 구성된다. 첫 번째 단계는 레이블이 약한 데이터와 레이블이 없는 데이터에 대해 잡음이 있는 레이블과 타임 스탬프를 예측한다. 두 번째 단계에서는 레이블이 약한 데이터와 레이블이 없는 데이터의 대상 레이블이 잡음이 있거나 오류가 있다. 따라서 두 번째 단계에서 이러한 노이즈가 많은 타겟 레이블을 수용하기 위해 준지도 손실 함수도 여기에서 제안된다. 실험 결과, 제안된 준지도 손실함수 기반의 두단계 음향 사건 감지 기법은 DCASE 2019, DCASE 2020 데이터셋에 대해 기존 합성곱 순환 신경망 기반 음향 사건 감지 모델 대비 event-based F1 score가 우수한 것으로 나타났다.

셋째, 앞선 두단계 음향 사건 감지 모델의 확장으로 Noisy 학생 모델을 이용한 자가학습 모델을 제안한다. 자가학습 모델은 두단계 음향 사건 감지 모델과 유사하게 훈련되는 방법이다. 먼저 준지도 학습을 기반으로 기존 모델을 훈련한다. 훈련된 모델이 선생 모델이 되고 이를 기반으로 약하게 라벨링 된 데이터와 라벨링되지 않은 데이터의 라벨을 추출한다. 이를 기반으로 noisy 학생을 훈련한다. 훈련된 noisy 학생 모델을 선생 모델로 전환하여 다시 noisy 학생 모델을 훈련하는 방식을 반복 훈련한다. 이때 사용되는 noisy 학생 방법으로 모델 잡음, 특징 잡음 방법이 있다. 모델 잡음은 dropout 기법과 Stochastic Depth 기법이 있다. Dropout은 각 레이어 단위에서 noisy하게 만드는 것이고, stochastic depth는 블록 단위 dropout으로 Bernoulli 분포를 활용하여 각 합성곱 층마다 임의로 해당 레이어를 통과할지 아닐지를 결정하는 기법이다. 이는 훈련 시 iteration마다 임의로 설정되어 모델 잡음으로서의 역할을 하게 된다. 다음으로, 특징 잡음이 있는데, 대표적인 기법으로는 mixup 기법과 specaugment 기법을 활용하여 데이터 증강을 수행한다. 실험 결과, 제안된 준지도 손실함수 기반의 두단계 음향 사건 감지 기법은 DCASE 2019, DCASE 2020 데이터셋에 대해 기존 합성곱 순환 신경망 기반 음향 사건 감지 모델 대비 event-based F1 score 우수한 것으로 나타났다. 또한 두단계 기반의 음향 사건 모델 대비해서도 성능이 향상되었다
URI
https://scholar.gist.ac.kr/handle/local/33387
Fulltext
http://gist.dcollection.net/common/orgView/200000905180
공개 및 라이선스
  • 공개 구분공개
파일 목록
  • 관련 파일이 존재하지 않습니다.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.