OAK

대형 언어 모델의 공간 추론을 위한 지도 이미지 및 텍스트 기반 지형 표현에 대한 비교

Metadata Downloads
Author(s)
박종현김성헌김예찬권철희조규태진정훈김지아강선종전문구
Type
Article
Citation
한국정보기술학회논문지, v.24, no.3, pp.61 - 68
Issued Date
2026-03
Abstract
본 논문에서는 세 가지 텍스트 표현(레스터, 벡터, 무작위 포인트) 방식에 따른 LLM의 공간 추론 능력과, VLM의 지도 이미지 기반 추론 능력을 비교하였다. 동일 영역의 SVG와 고도 맵 데이터를 가공하여 입력으로 사용하였으며, 텍스트는 격자 기반 레스터, 다각형 기반 벡터, 좌표 기반 표현으로 변환하였다. 다양한 표현 방식에 대해 고도 추정 및 가시성 판별 등 세 가지 과제를 평가하였다. 그 결과, LLM에서는 고도 맵 기반 레스터 표현이 벡터 및 무작위 점 표현보다 전반적으로 우수한 성능을 보였다. 반면 VLM은 고도 맵의 픽셀 의미를 잘 활용하지 못하고, SVG 기반 데이터에서 더 좋은 성능을 나타냈다. 또한 VLM의 공간 추론에는 객체 표시와 기호가 포함된 Visual grounding이 중요한 요소로 확인되었다.
Publisher
한국정보기술학회
ISSN
1598-8619
DOI
10.14801/jkiit.2026.24.3.61
URI
https://scholar.gist.ac.kr/handle/local/33971
공개 및 라이선스
  • 공개 구분공개
파일 목록
  • 관련 파일이 존재하지 않습니다.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.