Transforming Abstract Reasoning Benchmarks for Intermediate-Level Cognitive Assessment Using Multiple-Choice Questions
- Author(s)
- Donghyeon Shin
- Type
- Thesis
- Degree
- Master
- Department
- 대학원 AI대학원
- Advisor
- Kim, Sundong
- Abstract
- 비전-언어 모델이 발전함에 따라 해석가능성과 타당성이 향상된 추론 능력 평가 벤 치마크가 점점 더 중요해지고 있습니다. 추상화 및 추론 코퍼스(ARC)와 같은 생성 기반 벤치마크는 종합적인 평가를 제공하지만 해석가능성이 부족합니다—모델 실패 시 패턴 이해, 규칙 적용, 솔루션 구성 중 어느 단계에서 문제가 발생했는지 명확하지 않습니다. 이러한 해석가능성 한계를 해결하기 위해 하위 인지 단계를 체계적으로 평가할 수 있는 객관식형태의MC-LARC를개발했습니다.그러나중대한타당성위협을발견했습니다: 모델이선택지의언어적숏컷을활용하여진정한시각적추론없이도텍스트만으로 65% 의정확도를달성하며,이는무작위기준선 20%보다크게높은수치입니다.이러한숏컷 활용은 의도한 시각적 추론 능력 대신 언어적 패턴 매칭을 측정함으로써 벤치마크의 타 당성을 훼손합니다. 해석가능성과 타당성을 모두 복원하기 위해 비전-언어 모델이 숏컷 패턴을식별하고시각적이해를요구하는개선된오답지를생성하는자기피드백프레임 워크를 제안합니다. 여러 아키텍처(ChatGPT-4V, GLM-4.1V-9B 계열, Qwen2VL-7B, InternVL2-8B)를대상으로한검증실험결과,자기피드백이해석가능성이점을보존하 면서 일관되게 숏컷 활용을 20–26 퍼센트포인트 감소시킴을 확인했습니다. 특히 추론이 강화된 thinking 모델이 숏컷에 가장 취약하면서도 완화 전략으로부터 가장 큰 개선 효과를 보여, 모델 능력이 발전함에 따라 벤치마크 타당성이 중요해짐을 강조합니다.|As vision-language models advance, benchmarks with enhanced interpretability and validity for assessing reasoning abilities become increasingly important. Generation- based benchmarks like the Abstract and Reasoning Corpus (ARC) provide comprehen- sive evaluation but lack interpretability—when models fail, it remains unclear whether failures stem from pattern understanding, rule application, or solution construction stages. To address this interpretability limitation, we developed MC-LARC, a multiple- choice adaptation that isolates lower cognitive stages for systematic assessment. How- ever, we discovered a critical validity threat: models exploit linguistic shortcuts in answer choices, achieving 65% accuracy with text-only inputs compared to the 20% random baseline, without genuine visual reasoning. This shortcut exploitation under- mines the benchmark’s validity by measuring linguistic pattern matching rather than the intended visual reasoning abilities. To restore both interpretability and validity, we propose a self-feedback framework where vision-language models identify shortcut patterns and generate improved distractors requiring visual understanding. Valida- tion experiments across multiple architectures (ChatGPT-4V, GLM-4.1V-9B family, Qwen2VL-7B, and InternVL2-8B) demonstrate that self-feedback consistently reduces shortcut exploitation by 20–26 percentage points while preserving interpretability ben- efits. Notably, reasoning-enhanced thinking models exhibit both the highest vulnerabil- ity to shortcuts and the greatest benefit from mitigation, emphasizing that benchmark validity becomes critical as model capabilities advance.
- URI
- https://scholar.gist.ac.kr/handle/local/33856
- Fulltext
- http://gist.dcollection.net/common/orgView/200000948470
- 공개 및 라이선스
-
- 파일 목록
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.