Vector-Quantization for representation on Transformer
- Abstract
- Vector quantization (VQ) represents a continuous set of vectors with several discrete
vectors to obtain generalized expressions. Therefore, VQ can be applied for the deep
learning models interpretable but it causes poor
performance as it limits expressive power from continuous to discrete. In this paper,
assuming the clustering quality of VQ makes the performance reduction mitigated. We
propose a new simple VQ module without direct objective function and efficient config-
uration in the Transformer in low-resource Neural Machine Translation (NMT) tasks.
We show that all codewords are evenly distributed in the embedding space and analyze
their clustering quality. The highest validation accuracy is achieved compared to the
baseline VQ modules. Furthermore, the attention score fully-VQ improves performance
and reliability for random seeds better than vanilla Transformer.|연속적인 벡터 집합을 몇 개의 이산 벡터로 나타내는 벡터 양자화(Vector Quanti-
zation)를 이용하면 더 일반화된 표현을 얻을수 있고 이를 통해 딥러닝 모델의 해석이
가능하다. 하지만 벡터 양자화는 표현력을 한정하기 때문에 성능 감소를 발생시킨다. 본
연구에서는 클러스터링의 질을 높이면 일반 트랜스포머와의 성능 감소 차이를 줄일 수
있을 것이라 가정하고 직접적인 목적함수를 사용하지 않는 새로운 간단한 양자화 모듈을
제안한다. 또한 자연어 처리의 작은 데이터셋의 기계 번역 테스크에서 기조 트랜스포머
모델에서의 효율적인 배치방법을 제시한다.
이 논문에서는 모든 codeword 가 objective function 없이도 embedding space 내에
고르게 분포한다는 것을 시각화를 통해 보이고, 각 codeword의 index frequency를 통해
활용도를 분석한다. 또한, 모든 레이어의 어텐션 스코어에 VQ 를 적용하였을 때 시드에
대한 성능 안정성을 확보하면서 오리지널 Transformer 보다 validation 성능이 좋은 것을
확인하였다.
- Author(s)
- Doyeon Kim
- Issued Date
- 2022
- Type
- Thesis
- URI
- https://scholar.gist.ac.kr/handle/local/19884
- 공개 및 라이선스
-
- 파일 목록
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.