OAK

트랜스포머 기반 한국어 인식 모델의 어린이 음성 성능 평가

Metadata Downloads
Abstract
음성인식 기술은 컴퓨터와 인간 사이의 인터페이스 중 인간의 음성 통신을 실현하는 기술로 최근 인공신경망 기술의 발전으로 end-to-end 음성인식 모델이 등 장한 후 음성 인식률이 크게 개선됨에 따라, 음성통신 이외에 IoT 및 스마트홈 시장, 챗봇 등으로 활용범위가 확산되고 있다. 하지만 대부분의 음성인식 모델은 잡음이 없는 환경에서 명확한 발음으로 녹음된 성인 음성 데이터로 학습되었다. 이로 인해 발음과 발성이 비교적 불명확하고 성인과 음성 특징이 다른 어린이들을 대상으로 기존 음성인식 모델을 사용할 경우, 음성인식 성능이 저하된다[1]. 따라서, 본 논문에서는 한국어 성인 음성 데이터셋에서 좋은 성능을 보인 joint CTC (connectionist temporal classification) AED (attention-based encoder-decoder) 구조[2]의 transformer[3] 기반 한국어 음성인식 모델[4]을 Aihub의 소아⦁유아 자유대화 음성 데이터셋[5]에 적용하고 그 성능을 평가하고자 한다.
Author(s)
Jeong, SeunghunKim, Hong Kook
Issued Date
2022-09-30
Type
Conference Paper
URI
https://scholar.gist.ac.kr/handle/local/21826
Publisher
대한전자공학회
Citation
제32회 신호처리합동학술대회, pp.251 - 253
Conference Place
KO
서울
Appears in Collections:
Department of Electrical Engineering and Computer Science > 2. Conference Papers
공개 및 라이선스
  • 공개 구분공개
파일 목록
  • 관련 파일이 존재하지 않습니다.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.