OAK

Exploring Planning Capability of Large Language Model Using Abstraction and Reasoning Corpus Benchmark Woochang Sim Gwangju Institute of Science and Technology

Metadata Downloads
Abstract
최근 대규모 언어 모델은 거대한 파라미터에 많은 데이터와 GPU 자원을 기반으로 학습하여 다양한 벤치마크에서 좋은 성능을 발휘하고 있다. 이러한 대규모 언어 모델이 더 발전하기 위해서는 처음 직면한 문제에 대해서 패턴을 파악하여 문제 해결을 위한 목표를 설정하고 이를 해결할 전략을 수립할 줄 알아야 한다. 즉, 대규모 언어 모델이 한 걸음 더 나아가기 위해서는 계획을 세우는 능력이 필요하다. 본 논문에서는 계획 능력을 목표 설정과 전략 수립 등의 2가지 하위 능력의 집합으로 정의하였다. 본 논문에서는 크게 2가지 종류의 실험을 진행하였다. 하나의 실험은 대규모 언어 모델의 계획 능력을 확인하는 실험이다. 즉, 대규모 언어 모델의 목표 설정 능력과 전략 수립 능력을 평가하 는 실험이다. 다른 하나는 계획 능력을 평가하기 최적의 실험을 할 수 있도록 프롬프트 셋팅을 찾는 실험을 진행하였다. 실험 결과를 통해 현재 대규모 언어 모델의 계획 능력 은 다른 벤치마크에 비해 부족하다는 것을 알 수 있었다. Feedback loop나 메타 개념의 계층화 등의 방법을 사용한다면 계획 능력 더 향상될 것으로 보인다.|Large language models show strong performance on benchmarks, trained on vast data with enormous parameters using substantial GPU resources. For these models to advance further, they must be able to identify patterns, set objectives when en- countering problems, and establish solving strategies. In short, large language models need planning abilities for advancement. In this paper, planning ability is defined as a set of two sub-capabilities: objective setting and strategy formulation. The paper conducted two main experiments. One verified the planning ability of large language models by evaluating their objective setting and strategy formulation. The other fo- cused on finding optimal prompt settings to evaluate planning abilities. Results showed that current LLMs’ planning abilities are insufficient compared to other benchmarks. Planning abilities could improve through feedback loops and hierarchical meta-concept organization.
Author(s)
심우창
Issued Date
2025
Type
Thesis
URI
https://scholar.gist.ac.kr/handle/local/19277
Alternative Author(s)
Woochang Sim
Department
대학원 AI대학원
Advisor
Kim, Sungdong
Table Of Contents
Abstract (English) i
Abstract (Korean) ii
List of Contents iii
List of Tables v
List of Figures vii
1 Introduction 1
2 Background 4
2.1 Planning Capability 4
2.2 Benchmark 6
2.2.1 Introduction to the ARC Benchmark 6
2.2.2 DSLs in ARC 8
2.2.3 Suitability of ARC for Evaluating LLMs Planning Capabilities . 9
2.3 Learning Methods 10
2.4 Prompt Methods 14
2.4.1 Chain of Thought 15
2.4.2 Least to Most 15
2.4.3 Tree of Thoughts 16
3 Preliminary Experiments 19
3.1 Optimizing Prompt Configuration for LLMs in ARC 19
3.1.1 Optimizing Grid Representation for ARC 20
3.1.2 Comparative Analysis of Prompting Methods for LLMs in ARC 26
3.2 Assessing the Importance of Planning Capability 33
3.2.1 Motivation 33
3.2.2 Method 34
3.2.3 Experiment and Result 35
3.2.4 Analysis 36
3.2.5 Summary 37
– iii –
4 Evaluating Planning Capability of LLMs 38
4.1 Evaluating Objective Setting 38
4.1.1 Motivation 38
4.1.2 Method 39
4.1.3 Experiment and Result 41
4.1.4 Analysis 41
4.1.5 Summary 42
4.2 Evaluating Strategy Formulation 43
4.2.1 Motivation 43
4.2.2 Method 44
4.2.3 Experiment and Result 46
4.2.4 Analysis 46
4.2.5 Summary 49
5 Discussion 50
5.1 Is the Planning Capability of LLMs Really Poor 50
5.2 How Can the Planning Capability of LLMs Be Improved 52
6 Conclusions 55
Summary 56
References 57
A Detailed Methodology for Experiments with Constraint Alleviation 64
A.1 Measuring Human Performance in Strategic Formulation 64
– iv –
Degree
Master
Appears in Collections:
Department of AI Convergence > 3. Theses(Master)
공개 및 라이선스
  • 공개 구분공개
파일 목록
  • 관련 파일이 존재하지 않습니다.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.