OAK

Vector-Quantization for representation on Transformer

Metadata Downloads
Abstract
Vector quantization (VQ) represents a continuous set of vectors with several discrete
vectors to obtain generalized expressions. Therefore, VQ can be applied for the deep
learning models interpretable but it causes poor
performance as it limits expressive power from continuous to discrete. In this paper,
assuming the clustering quality of VQ makes the performance reduction mitigated. We
propose a new simple VQ module without direct objective function and efficient config-
uration in the Transformer in low-resource Neural Machine Translation (NMT) tasks.
We show that all codewords are evenly distributed in the embedding space and analyze
their clustering quality. The highest validation accuracy is achieved compared to the
baseline VQ modules. Furthermore, the attention score fully-VQ improves performance
and reliability for random seeds better than vanilla Transformer.|연속적인 벡터 집합을 몇 개의 이산 벡터로 나타내는 벡터 양자화(Vector Quanti-
zation)를 이용하면 더 일반화된 표현을 얻을수 있고 이를 통해 딥러닝 모델의 해석이
가능하다. 하지만 벡터 양자화는 표현력을 한정하기 때문에 성능 감소를 발생시킨다. 본
연구에서는 클러스터링의 질을 높이면 일반 트랜스포머와의 성능 감소 차이를 줄일 수
있을 것이라 가정하고 직접적인 목적함수를 사용하지 않는 새로운 간단한 양자화 모듈을
제안한다. 또한 자연어 처리의 작은 데이터셋의 기계 번역 테스크에서 기조 트랜스포머
모델에서의 효율적인 배치방법을 제시한다.
이 논문에서는 모든 codeword 가 objective function 없이도 embedding space 내에
고르게 분포한다는 것을 시각화를 통해 보이고, 각 codeword의 index frequency를 통해
활용도를 분석한다. 또한, 모든 레이어의 어텐션 스코어에 VQ 를 적용하였을 때 시드에
대한 성능 안정성을 확보하면서 오리지널 Transformer 보다 validation 성능이 좋은 것을
확인하였다.
Author(s)
Doyeon Kim
Issued Date
2022
Type
Thesis
URI
https://scholar.gist.ac.kr/handle/local/19884
Alternative Author(s)
김도연
Department
대학원 AI대학원
Advisor
Kim, Kangil
Degree
Master
Appears in Collections:
Department of AI Convergence > 3. Theses(Master)
공개 및 라이선스
  • 공개 구분공개
파일 목록
  • 관련 파일이 존재하지 않습니다.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.