OAK

Auxiliary Decoder-Based Training for Sound Event Detection with a Pretrained Model

Metadata Downloads
Abstract
Sound Event Detection (SED) identifies the types and timestamps of events within audio clips and has applications in diverse areas such as audio captioning, wildlife tracking, and equipment monitoring. These applications are critical for extracting and analyzing meaningful information from audio recordings. This thesis introduces an innovative approach to enhance SED by incorporating an auxiliary decoder into the output of the final layer of the convolutional block. This integration significantly im- proves SED capabilities, enabling more accurate recognition and classification of sound events. Furthermore, this thesis proposes a one-stage training method to enhance SED model performance, replacing the conventional two-stage approach, which involves a CRNN training process followed by fine-tuning. By employing integration and corre- lation branches, this network combines embeddings from multiple sub-networks. The method unifies the objectives of both stages by utilizing an auxiliary decoder, allowing joint training of the pre-trained transformer encoder and convolutional layers. Applied to the DCASE 2024 Challenge Task 4 dataset, the model’s performance was evaluated using the Polyphonic Sound Detection Score (PSDS) and the Mean Pairwise Area Un- der the Curve (MPAUC). These evaluations assessed the impact of the auxiliary module and the new training method, comparing the results with state-of-the-art SED models. The experimental results on the DCASE 2024 Challenge Task 4 evaluation dataset con- firmed that the proposed method outperformed state-of-the-art SED models leveraging pre-trained architectures, achieving a performance improvement of 0.029 in the sum of the two evaluation metrics. The one-stage training approach demonstrated its abil- ity to utilize resources more efficiently compared to the traditional two-stage training method, while enabling domain-specific sound event boundary detection.|사운드 이벤트 검출(Sound Event Detection, SED)은 오디오 클립 내에서 이벤트의 유형과 발생 시간을 식별하며, 오디오 캡셔닝, 야생동물 추적, 장비 모니터링과 같은 다양한 분야에 응용한다. 이러한 응용은 오디오 기록에서 의미 있는 정보를 추출하고 분석하는 데 필수적이다. 이 논문에서는 SED를 향상시키기 위해 합성곱 블록의 마지막 계층 출력에 보조 디코더(auxiliary decoder)를 통합하는 혁신적인 접근 방식을 제안한 다.이러한통합은 SED의성능을크게향상시켜사운드이벤트의인식및분류정확도를 높인다. 또한, 이 논문에서는 기존의 합성곱신경망 및 재귀신경망(CRNN) 구조에 대한 훈련 과정과 후속 미세 조정 과정을 포함한 2단계 접근 방식을 대체하기 위해 SED 모델 성능을 향상시키는 1단계 훈련 방법을 제안한다. 이 네트워크는 통합 및 상관 관계 브랜 치를 활용하여 여러 서브 네트워크의 임베딩을 결합한다. 이러한 방법은 보조 디코더를 사용하여 두 단계의 목표를 통합하며, 사전 학습된 트랜스포머 인코더와 합성곱 계층을 함께 학습할 수 있도록 한다. DCASE 2024 Challenge Task 4 데이터셋에 적용하여, 모 델의 성능은 복합 음원 점수(PSDS)와 평균 쌍별 면적 아래 곡선(MPAUC)을 사용하여 평가한다. 이러한 평가는 보조 모듈과 새로운 훈련 방법의 영향을 측정하며, 최신 SED 모델과의 성능을 비교한다. DCASE 2024 챌린지 Task 4 검증 데이터셋에서 실험 결과 – iii – 는 제안된 방법이 사전 학습된 아키텍처를 활용한 최신 SED 모델과 성능 비교 시, 두 성능지표의 합에서 0.029 더 높은 성능을 보여줌을 확인했다. 1단계 훈련 방법은 기존 2 단계 기반 훈련 방식보다 자원을 효율적으로 사용할 수 있으면서, 특정 분야에 특화된 음원 사건 구간 탐지를 가능하게 만들 수 있음을 확인했다.
Author(s)
손상원
Issued Date
2025
Type
Thesis
URI
https://scholar.gist.ac.kr/handle/local/18961
Alternative Author(s)
SANGWON SON
Department
대학원 AI대학원
Advisor
Kim, Hong Kook
Table Of Contents
Abstract (English)
Abstract (Korean)
List of Contents
List of Tables
List of Figures
1 Introduction
1.1 Overview of Sound Event Detection
1.2 Problem definition
1.3 Aim of Thesis
2 Baseline Models
2.1 Overview
2.2 Feature Extractor
2.3 Embedding Extractor Using Pre-trained Model
3 Proposed Method
3.1 Overview
4 Experiments
4.1 Dataset
4.2 Evaluation Metric
4.3 Experiment Setup
4.4 Results
5 Conclusion
5.1 Conclusion
5.2 Further Study
References
Acknowledgements
Degree
Master
Appears in Collections:
Department of AI Convergence > 3. Theses(Master)
공개 및 라이선스
  • 공개 구분공개
파일 목록
  • 관련 파일이 존재하지 않습니다.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.