AI AGNET- WKM: 인간처럼 실제 맥락에 맞게 계획을 세운다고? (Agent Planning with World Knowledge Model)

최근 인공지능(AI) 기술의 눈부신 발전과 함께 대형 언어 모델(LLM)이 크게 향상되었습니다. 이로 인해 컴퓨터는 사람처럼 글을 읽고 쓰는 능력이 비약적으로 개선되었으며, 이는 AI의 적용 가능성을 넓히는 중요한 기틀이 되었습니다.

실제 응용 사례와 도전 과제

이제 LLM을 활용하여 실제 세상에서 계획을 세우고 실행하는 다양한 시도가 이루어지고 있습니다. 예를 들어, 로봇이 물건을 옮기거나 요리하는 작업을 계획하게 하는 것이 그 예입니다. 그러나 대부분의 LLM은 다음 단어를 예측하는 Self-Regression Model로 훈련되어 실제 세상을 충분히 이해하지 못합니다. 이로 인해 AI 모델은 예상치 못한 행동을 하거나 잦은 실수를 하게 됩니다.

무작위 시도: AI 모델이 다음에 무엇을 해야 할지 몰라서 무작위로 행동하는 경우가 많았음.
환각적인 행동: AI 모델이 실제로는 불가능한 행동을 계획하거나 수행하려고 함.
실제 이해 부족: AI 모델이 실제 세계를 충분히 이해하지 못해 계획을 제대로 세우지 못함.

인간의 독특한 계획 능력

인간은 세상을 이해하고 계획하는 데 독특한 방식을 가지고 있습니다. 우리는 어떤 일을 하기 전에 머릿속으로 그 일을 시뮬레이션하고, 경험과 지식을 바탕으로 계획을 세웁니다. 예를 들어, 깨끗한 계란을 전자레인지에 넣어야 하는 과제가 주어지면, 냉장고에서 계란을 꺼내 씻은 다음 전자레인지에 넣는 순서를 머릿속으로 그립니다. 반면, AI 모델은 무작위로 행동하거나 비현실적인 계획을 세우는 경우가 많습니다.

세계 지식 모델(WKM)의 필요성

AI가 인간처럼 효율적이고 정확하게 계획을 세우기 위해서는 인간의 방식처럼 세계에 대한 지식을 바탕으로 계획을 세우는 모델이 필요합니다. 이를 세계 지식 모델(WKM)이라고 합니다. 인간은 경험과 전문가의 조언을 통해 지식을 얻습니다. 마찬가지로, WKM도 전문가의 조언과 경험을 바탕으로 학습하도록 설계됩니다.

세계 지식 모델(WKM)에 대해 알아보자

1. WKM의 개념

AI 에이전트가 인간처럼 물리적 세계를 이해하고 계획을 세울 수 있도록 돕는 모델입니다. WKM은 두 가지 주요 유형의 지식을 결합하여 에이전트의 성능을 향상시킵니다:

전역 과제 지식 (Global Task Knowledge): 특정 작업을 수행하기 위한 사전 지식입니다. 이는 에이전트가 작업을 시작하기 전에 이해해야 하는 전반적인 정보와 계획입니다.
로컬 상태 지식 (Local State Knowledge): 작업을 수행하는 동안 실시간으로 업데이트되는 동적 지식입니다. 이는 현재 상태와 상황에 대한 정보를 포함합니다.

2. 이전 AI 에이전트 모델들과의 차이점

이 논문에서 제안한 WKM은 기존의 AI 에이전트 모델과 몇 가지 중요한 차이점이 있습니다:

RAG (Retrieval-Augmented Generation)와의 차이점:
- RAG는 대규모 언어 모델(LLM)에 검색 기능을 추가하여, 질문에 대한 답변을 생성할 때 외부 데이터베이스에서 관련 정보를 검색하고 이를 답변 생성에 활용합니다.
- WKM은 단순히 정보를 검색하는 것에 그치지 않고, 에이전트가 작업을 수행할 때 필요한 전반적인 계획을 세우는 데 필요한 지식을 종합하고, 이를 실시간으로 업데이트하여 활용합니다.
기존 LLM 기반 에이전트 모델들과의 차이점:
- 기존 모델들은 다음 단어를 예측하는 방식으로 훈련되어, 실제 세계를 이해하는 데 한계가 있습니다. 이러한 모델들은 환각적 행동을 하거나 무작위 시도와 오류를 자주 범합니다.
- WKM은 인간의 사고 방식을 모방하여, 사전 지식과 실시간 상태 지식을 결합하여 더 효율적이고 정확한 계획을 세울 수 있습니다.

3. WKM 프로세스

WKM의 주요 단계는 다음과 같습니다:

과제 지식 합성 (Task Knowledge Synthesis):
- 전문가 궤적: 전문가가 작업을 수행한 기록을 바탕으로 에이전트를 훈련시킵니다.
- 샘플 궤적: 에이전트가 스스로 작업을 수행한 기록을 바탕으로, 전문가 궤적과 비교하여 학습합니다.
- 합성: 두 궤적을 비교하여 최적의 작업 수행 방법을 도출합니다
  
  [쉬운 설명]
  -전문가 궤적: 전문가가 작업을 어떻게 수행하는지 기록한 데이터를 에이전트가 학습해요. 예를 들어, 요리사가 요리하는 과정을 동영상으로 보고 배우는 것과 같아요.
  -샘플 궤적: 에이전트가 스스로 작업을 수행하면서 만든 기록을 학습해요. 마치 학생이 숙제를 스스로 해보면서 배우는 것과 같아요.
  -합성: 에이전트는 전문가의 방법과 자신의 방법을 비교해서 최적의 작업 수행 방법을 찾아내요. 예를 들어, 요리사가 요리하는 동영상을 보고 자신이 해본 요리를 비교해서 더 나은 방법을 배우는 것과 같아요.
상태 지식 요약 및 상태 지식 기반 구축 (State Knowledge Summarization and Base Construction):
- 각 계획 단계에서 현재 상태를 요약하여 기록합니다.
- 이러한 요약된 상태 지식을 바탕으로 데이터베이스를 구축합니다.
  
  [쉬운 설명]
  -상태 지식 요약: 에이전트가 작업을 수행할 때마다 현재 상태를 기록해요. 예를 들어, 계란을 찾아서 냉장고 문을 열었는지 닫았는지를 기록하는 것과 같아요.
  -데이터베이스 구축: 이렇게 기록된 상태 지식을 모아서 데이터베이스를 만들어요. 마치 여러 번의 요리 시도에서 배운 것을 노트에 정리해두는 것과 같아요.
모델 훈련 (Model Training):
- WKM을 통해 학습한 과제 지식과 상태 지식을 바탕으로 에이전트 모델을 훈련합니다.
- 동일한 학습 방법(LoRA)을 사용하여 에이전트 모델과 지식 모델을 훈련합니다.
  
  [쉬운설명]
  - LoRA는 Low-Rank Adaptation의 약자로, AI 모델을 더 효율적으로 학습시키기 위한 특별한 방법
  AI 모델은 보통 매우 큽니다. 예를 들어, 아주 두꺼운 책이라고 생각해봐요. 이 두꺼운 책을 한 번에 다 읽고 외우는 건 어려운 것처럼요. LoRA는 이 큰 책을 한 번에 다 읽는 대신, 책의 중요한 부분만 조금씩 업데이트하는 방법이에요. 예를 들어, 책의 중요한 문장을 밑줄 치거나 메모를 하는 것처럼요. 이렇게 중요한 부분만 업데이트하면 전체 책을 다 읽지 않아도 중요한 내용을 빠르게 학습할 수 있어요. 따라서 모델이 더 빠르게 학습할 수 있고, 컴퓨터 자원도 덜 필요하게 돼요.
계획 단계에서의 WKM 활용 (Agent Planning with WKM):
- 에이전트가 실제 작업을 수행할 때, WKM을 활용하여 전역 과제 지식과 로컬 상태 지식을 실시간으로 적용합니다.
- 상태 지식 기반에서 최적의 행동을 검색하고 제약 조건을 활용하여 다음 행동을 결정합니다.
  
  [쉬운설명]
  -실제 작업 수행: 에이전트가 실제 작업을 수행할 때, WKM을 활용해서 전역 과제 지식(작업을 시작하기 전에 필요한 정보)과 로컬 상태 지식(실시간으로 업데이트되는 정보)을 실시간으로 적용해요.
  -최적의 행동 결정: 에이전트는 상태 지식 기반에서 최적의 행동을 검색하고, 이를 바탕으로 다음에 무엇을 할지 결정해요. 마치 요리 중간 중간에 노트를 참고해서 다음에 무엇을 해야 하는지 결정하는 것과 같아요.

4. WKM의 이점

무작위 시도 감소: WKM은 에이전트가 무작위로 행동하지 않고, 구체적인 계획을 세워 효율적으로 작업을 수행하도록 도와줍니다.
환각적 행동 감소: 에이전트는 실시간으로 환경을 파악하고, 잘못된 행동을 줄여 정확한 계획을 세울 수 있습니다.
일반화 능력 향상: WKM은 새로운 작업에도 적응하여 더 나은 성과를 보일 수 있습니다.
효율적인 계획 수립: 에이전트는 더 적은 시간과 노력으로 작업을 완료할 수 있으며, 작업 수행 중 발생할 수 있는 오류를 최소화할 수 있습니다.

세계 지식 모델(WKM)의 평가

데이터셋 및 평가 지표

WKM(World Knowledge Model) 방법은 세 가지 실제 시뮬레이션 계획 데이터셋에서 평가되었습니다:

ALFWorld: 에이전트가 특정 작업을 완료했는지 여부에 따라 0 또는 1의 보상을 받습니다.
WebShop: 에이전트가 작업을 얼마나 잘 완료했는지를 0에서 1 사이의 점수로 평가합니다.
ScienceWorld: WebShop과 마찬가지로 작업 완료 수준을 0에서 1 사이의 점수로 평가합니다.

모든 데이터셋에서 평균 보상을 사용하여 최종 성능을 평가합니다.

모델 및 기준선

다양한 최신 AI 모델과 우리의 WKM 방법을 비교했습니다:

모델: Mistral-7B, Gemma-7B, Llama-3-8B
프롬프트 기반 기준선: REACT, Reflexion
파인 튜닝 기반 기준선: NAT, ETO
추가 비교 모델: KNOWAGENT, ChatGPT (gpt-3.5-turbo), GPT-4

모든 프롬프트 기반 기준선은 one-shot 프롬프트로 테스트되었고, 모든 파인 튜닝 기반 기준선은 LoRA로 훈련되었습니다.

훈련 및 추론 설정

이번 논문의 접근법을 LlamaFactory 프레임워크를 사용하여 LoRA로 미세 조정했습니다.

학습 설정: 학습률 1e-4, 시퀀스 길이 2048, 훈련 에포크 3, 배치 크기 32, AdamW 옵티마이저, 코사인 학습 스케줄러 사용.
추론 설정: 8개의 NVIDIA V100 32G GPU에서 12시간 이내에 훈련 및 추론 실험 수행.

결과 요약

WKM 방법이 다양한 데이터셋에서 기존 모델들보다 뛰어난 성능을 보였습니다:

프롬프트 기반 기준선: REACT와 Reflexion은 우리의 방법에 비해 성능이 낮았습니다.
GPT-3.5-Turbo: 평균적인 성능을 보였으며, GPT-4는 다양한 데이터셋에서 강력한 성능을 보였습니다.
GPT-4와의 비교: LoRA 훈련만으로도 ALFWorld와 WebShop에서 GPT-4를 능가했습니다.
NAT와 ETO: 해당 논문 방법보다 성능이 떨어졌으며, 이는 부정적인 예제에 대한 추가적인 SFT 또는 DPO보다 에이전트 모델에 세계 지식을 통합하는 것이 더 효과적임을 의미합니다.
KNOWAGENT와의 비교: 우리의 방법이 더 나은 성능을 보였으며, 이는 인스턴스 수준의 과제 지식을 생성하고 암시적 행동 제약을 유지하는 WKM의 효과를 보여줍니다.

저작자표시 비영리 변경금지

'AI' 카테고리의 다른 글

마케터, 디자이너, 영상전문가가 꼭 알아야 하는 AI 툴 'FLORA' (3)	2025.03.21
[논문 리뷰] Contextual Position Encoding:Learning to Count What’s Important (1)	2024.06.03
파인튜닝: 어떠한 데이터를 학습해야하고 어떠한 경우에 할루시네이션이 생기는 가? (0)	2024.05.21
Google I/O 발표의 모든 것 정리! 이거만 보면 됨! (0)	2024.05.15
얼마나 많은 라벨링 데이터가 필요할까? Fine-Tuning, Prompting, In-Context Learning, Instruction-Tuning (1)	2024.05.15