Real-Time Implementation of Client-Server based Sound Event Detection
- Author(s)
- Jun Ho Kim
- Type
- Thesis
- Degree
- Master
- Department
- 대학원 전기전자컴퓨터공학부
- Advisor
- Kim, Hong Kook
- Abstract
- 음향 사건 검지는 오디오 클립에서 어떤 사건 음향이 발생하고 있는지 인지하는
것에 목적을 두고 있다. 또한 실생활에 적용 시 다방면으로 활용이 가능하기에 음향 사건
검지 모델 구축 및 구현을 제안한다. 최근 딥러닝을 활용한 음향 사건 검지 모델 구축에
대한 연구가 활발히 진행되고 있다. 이 경우 음향 사건의 처음과 끝을 알 수 있는 강하게
표시된 데이터가 요구된다. 하지만 해당 데이터를 구하기 쉽지 않아, 모델 구축 및 실시간
구현에 어려움이 있다.
본 학위 논문에서는 약하게 표시된 음향 사건 데이터를 활용 CNN (convolutional
neural network) 기반 네트워크 중 하나인 잔여 네트워크 (ResNet)를 활용하여 음향 사
건 검지 모델을 구축하고 이를 클라이언트 서버 통신을 통해 실시간 구현하는 방법을
제안한다. 효과적인 딥러닝 기반 네트워크를 활용하여, 실시간 구현에 맞는 오디오 입력
특징을 통해 음향 사건 검지 모델을 구축하고 웹소켓(websocket)을 활용한 클라이언트
서버 간 실시간 통신을 구현한다. 본 내용에서는 클라이언트와 서버 간 데이터를 주고
받는 구체적인 시스템의 흐름에 대해 서술한다.
성능 평가에서는 정밀도 (Precision), 재현율(Recall) 그리고 F1-score를 활용하여 구
축된 음향 사건 검지 모델의 성능에 대한 평가를 진행하며, 모델 입력 특징의 크기에
따른 실행 속도를 비교한다. 그 결과, 기존의 긴 입력 특징을 갖는 모델에 비해 떨어지는
성능을 보였으나, 처리 속도 면에서는 우수한 성능을 보였다.|Sound event detection(SED) aims to recognize which event sound is occurring in
an audio clip. In addition, it is proposed to construct and implement an SED model.
Because it can be used in many ways when applied to real life. Recently, studies on
the construction of acoustic event detection models using deep learning have been
actively conducted. In this case, strongly labeled data that contains the onset and
offset annotation events is needed, but obtaining these data is not easy. Therefore,
there are difficulties in model construction and real-time implementation.
In this dissertation, an SED model based on residual networks (ResNet) is constructed
by using weakly labelled sound source. In addition, it is proposed to implement
sound event detection system in real time through server-client communication.
By using efficient deep learning based networks, build an sound event detection model
through the audio input feature, and implements real-time communication between
server-client using websocket. This content describes the specific system flow between
client and server.
Finally, the performance of sound event detection model is evaluated by precision,
recall and f1-score. And also the execution speed is compared. As a result, it
showed poor performance compared to the model which contains long input feature.
But showed excellent performance in terms of execution time.
- URI
- https://scholar.gist.ac.kr/handle/local/33073
- Fulltext
- http://gist.dcollection.net/common/orgView/200000909067
- 공개 및 라이선스
-
- 파일 목록
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.