Multimodal Dialogue Act Classification Using Context-Aware Residual Attention and LoRA-Based Cross-Attention Fusion YeJin Park College of Information and Computing Department of AI Convergence Gwangju Institute of Science and Technology
- Author(s)
- YeJin Park
- Type
- Thesis
- Degree
- Master
- Department
- 정보컴퓨팅대학 AI융합학과
- Advisor
- Kim, Hong Kook
- Abstract
- This paper proposes a multimodal Dialogue Act Classification model that leverages both audio and text modalities to selectively integrate contextual information and perform cross-modal fusion. To preserve utterance-level distinctions while effectively utilizing preceding dialogue, we introduce a Context-Aware Residual Attention mecha- nism that incorporates information from past utterances through residual connections. Furthermore, a Low-rank Gated Cross Attention Fusion module combines multi-head attention with gating mechanisms to model fine-grained interactions between context- aware audio and text embeddings. Evaluated on the EMOTyDA dataset using two pre- ceding utterances as context, the proposed model achieved a macro F1 score of 0.607 and an accuracy of 0.6547, outperforming the baseline by 13.30 and 6.71 percentage points, respectively. Even in settings without contextual input, the model outperformed context-dependent baselines, demonstrating the effectiveness of the proposed context integration and modality fusion strategies.|본 논문은 오디오와 텍스트 정보를 활용하여 문맥 정보를 선택적으로 통합하고, 교차 모달 융합을 수행하는 멀티모달 대화 화행 분류 모델을 제안한다. 제안된 모델은 발화 간 구분성을 유지하면서도 선행 대화로부터 유의미한 정보를 효과적으로 활용하기 위해, 문맥 인지 잔차 어텐션 구조를 도입하여 과거 발화에 대한 주의를 잔차 연결 방식으로 반영한다. 또한, 저랭크 기반 게이트 교차 어텐션 융합 구조는 멀티헤드 어텐션과 게이팅 메커니즘을 결합하여 문맥을 포함한 오디오 및 텍스트 임베딩 간의 정밀한 상호작용을 효과적으로 모델링한다. EMOTyDA 데이터셋을 기반으로 두 개의 이전 발화를 문맥으로 사용할 경우, 제안 모델은 매크로 F1 점수 0.607, 정확도 0.6547을 기록하며 베이스라인 대비 각각 13.30와 6.71 퍼센트포인트 향상된 성능을 보였다. 문맥을 사용하지 않는 설 정에서도 제안 모델은 문맥을 사용하는 기존 베이스라인보다 우수한 성능을 나타내며, 제안한 문맥 통합 및 모달 융합 전략의 효과성을 입증하였다.
- URI
- https://scholar.gist.ac.kr/handle/local/31925
- Fulltext
- http://gist.dcollection.net/common/orgView/200000898506
- 공개 및 라이선스
-
- 파일 목록
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.