FUN-SSL: Full-band layer followed by U-Net with Narrow-band layers for Multiple Moving Sound Source Localization
- Author(s)
- Yuseon Choi
- Type
- Thesis
- Degree
- Master
- Department
- 대학원 AI대학원
- Advisor
- Shin, Jong Won
- Abstract
- 음원 정위는 다채널 신호로부터 하나 이상의 음원의 도착 방향(DoA, direction of arrival)을 추정하는 기술로, 이를 위해서는 신호의 직접 경로 성분에 내재된 공간적 특징을 정확히 포착하는 것이 중요하다. 그중에서도, 잡음과 잔향의 영향을 최소화한 직접 경로에서의 채널 간 위상 차이(DP-IPD, direct-path interchannel phase difference)는 주파수 영역에서 시간 지연 정보를 위상 차이로 표현해주는 주요 공간 단서(spatial cue)로, 음원 정위에 널리 활용된다. 본 연구에서는 DP-IPD를 추정하기 위해, 전대역(full-band)과 협대역(narrow-band) 정보를 융합한 최신 네트워크를 U-Net 구조와 결합한 딥러닝 기반 음원 정위 모델 FUN-SSL을 제안한다. FUN-SSL은 전대역 계층에서 주파수 간 상관관계를 학습하고, 다중 스케일 협대역 계층을 통해 여러 동적 음원의 시간 변화를 정밀하게 추적한다. 또한, 다운샘플링–업샘플링 모듈에서 추출한 특징을 각 스케일별로 합산하여 다양한 해상도에서의 공간 표현력을 강화하고, FUN 블록 간 스킵 연결(skip connection)을 통해 이전 블록의 정보를 다음 블록으로 효과적으로 전달함으로써 정보 손실을 완화하였다. 실제 환경을 모사한 시뮬레이션 데이터셋에서의 실험 결과, FUN-SSL은 기존의 최신 음원 정위 기법 대비 연산량을 절반 수준으로 줄이면서도 우수한 성능을 달성하였다. 특히, 잡음과 잔향이 심한 환경에서도 안정적인 정위 성능을 유지함으로써 제안한 모델의 효용성을 입증하였다.|Sound source localization (SSL) aims to estimate the direction of arrival (DoA) of one or more sound sources from multichannel signals. For accurate DoA estimation, it is essential to capture spatial features embedded in the direct-path component of the signal. Among these features, the direct-path interchannel phase difference (DP-IPD), which represents time delay information as phase differences in the frequency domain, has been widely adopted as a key spatial cue for localization tasks. This work proposes FUN-SSL, a novel SSL model that consists of a full-band processing layer followed by a U-Net framework with multi-scale narrow-band layers. The network learns inter-frequency correlations through full-band processing and accurately tracks temporal variations of multiple moving sources via the narrow-band processing. Encoder features are summed with the corresponding decoder feature maps at each scale to enhance the representational capacity. In addition, skip connections between FUN blocks preserve important information from previous blocks and propagate it to subsequent processing block. FUN-SSL outperforms the baseline on the simulation dataset while preserving a similar model size and significantly lower computational complexity. Furthermore, FUN-SSL consistently maintains reliable localization performance even under challenging conditions with strong noise and reverberation, demonstrating the effectiveness of its architecture design.
- URI
- https://scholar.gist.ac.kr/handle/local/31897
- Fulltext
- http://gist.dcollection.net/common/orgView/200000900228
- 공개 및 라이선스
-
- 파일 목록
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.