OAK

Optimizing RAG Pipeline Based on Genetic Algorithm and LangGraph

Metadata Downloads
Author(s)
Sanghuck Won
Type
Thesis
Degree
Master
Department
대학원 AI대학원
Advisor
Ahn, Chang Wook
Abstract
This paper presents an approach to optimizing Retrieval-Augmented Generation (RAG), a key technology that complements the limitations of Large Language Models (LLMs). RAG pipelines face limitations in that their optimal configuration, due to various components and parameters, is dependent on the dataset, and optimal settings must be found manually. To overcome this, this paper proposes GA-RAGraph, a novel framework that auto- matically optimizes the parameters and structure of RAG pipelines based on Genetic Algorithms (GA) and LangGraph. GA-RAGraph aims to model RAG pipelines using LangGraph, which is suitable for complex, state-based, cyclic workflows, and utilizes GA to explore and evolve pipeline configurations to find the optimal combination. Experiments were conducted using real-world corporate HR and finance data, and optimization was performed using retrieval, generation, and e!ciency metrics. The optimized structures generally exhibited superior retrieval and generation quality com- pared to the existing baseline and enabled the discovery of optimized structures tailored to user or task requirements. This paper demonstrates that the proposed GA-RAGraph framework can e”ectively perform complex and labor-intensive RAG pipeline optimiza- tion and shows that data-driven optimization allows for the construction of e!cient RAG pipelines adaptable to various domains and requirements. Keyword : Genetic Algorithm, RAG pipeline, LangGraph, GA Optimization|본 논문은 대규모 언어 모델(LLM)의 한계점을 보완하는 핵심 기술인 검색 증강 생성(Retrieval-Augmented Generation, RAG) 의 최적화하는 접근 방안을 제시한다. RAG 파이프라인은 다양한 구성 요소와 매개변수로 인한 최적의 구성이 데이터셋에 의존적이며, 수동으로 최적의 설정을 찾아야 한다는 한계가 있다. 이를 극복하기 위해 본 논문은 유전 알고리즘(Genetic Algorithm, GA)과 LangGraph를 기반으로 RAG 파이프라인의 매개변수 및 구조를 자동으로 최적화하는 새로운 프레임워크 GA-RAGraph 를 제안하였다. GA-RAGraph 복잡하고, 상태 기반의 순환적 워크플로우에 적합한 LangGraph를 사용하여 RAG 파이프라인을 모델링하고, GA를 활용하여 파이프라인 구성을 탐색하고 발전시켜 최적의 조합을 찾아내고자 하였다.
실험은 실제 기업 인사, 재무 데이터를 사용하여 수행되었으며, 검색, 생성, 효율성 지표를 활용해 최적화를 진행하였다. 최적화된 구조는 기존의 RAG 파이프라인 보다 검색 및 생성 품질이 전반적으로 우수하였으며, 사용자나 task 에 요구에 맞는 최적화된 구조를 찾을 수 있도록 하였다.
본 연구는 제안된 GA-RAGraph 프레임워크가 복잡하고 노동 집약적인 RAG 파이프라인 최적화를 효과적으로 수행할 수 있음을 보여주었고, 데이터 기반의 최적화를 통해 다양한 도메인 및 요구 사항에 적응할 수 있는 효율적인 RAG 파이프라인 구축을 할 수 있음을 보여준다.
URI
https://scholar.gist.ac.kr/handle/local/31934
Fulltext
http://gist.dcollection.net/common/orgView/200000892785
Alternative Author(s)
원상혁
Appears in Collections:
Department of AI Convergence > 3. Theses(Master)
공개 및 라이선스
  • 공개 구분공개
파일 목록
  • 관련 파일이 존재하지 않습니다.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.