Machine learning

[Paper 정리] LLM A*: Human in the loop LLM enabled A* search for Robotics (2023.12 arxiv, LLM + A*)

South Korea life 2023. 12. 7. 09:55
728x90
반응형
  • 저자
    Hengjia Xiao (영국 맨체스터 메트로폴리탄 대학교 research assistant) and Peng Wang (영국 맨체스터 메트로폴리탄 대학교 강사)

  • 주요 내용
     - 해당 논문은 LLM과 A* 알고리즘을 묶어서, 복잡한 학습과정 없이 path planning을 수행하는 것을 목표로 함
     - 구조적으로 확인해봤을 때, LLM을 따로 fine-tuning 학습 과정 없이 있는 모델을 그대로 사용한 것으로 보임
     - 의의: LLM을 로봇 path planning에 붙여서 사용해봤다...

  • 구조
    사용자가 설정하고 싶은 부분들(환경, action model, 출발지점, 도착지점 등)에 대한 대화 처리를 LLM으로 해주고, LLM에서 추출된 {state, action} 정보 등에 기반하여 A* 알고리즘이 작동하는 것으로 보임.

LLM A*의 구조 (출처: LLM A*: Human in the loop LLM enabled A* search for Robotics 논문)

 

 

아래 그림은 환경 설정을 하는 방법을 보여줌. LLM의 역활은 사용자 prompt를 분석하고 A*에 필요한 정보를 추리는 것으로 보임.

LLM A*를 test할 환경 설정 (출처: LLM A*: Human in the loop LLM enabled A* search for Robotics 논문)

 

 

아래 그림은 대화를 통해서 path planning을 수행하는 것을 보여주고 있음.

LLM A* path planning하는 장면 (출처: LLM A*: Human in the loop LLM enabled A* search for Robotics 논문)

 

 

  • 결과

아래 그림 (a)는 A*의 결과이며, (b)는 LLM A*의 결과임. 그림 내에서 초록색은 search space를 의미하며, 빨간색은 최종 결정된 path를 의미함. 이 결과를 보면, LLM A*가 A*에 비해서 search space가 훨씬 적다는 것을 알 수 있음.

(a)A*와 (b)LLM A* 테스트 결과 비교 (출처: 출처: LLM A*: Human in the loop LLM enabled A* search for Robotics 논문)

 

 

아래 그림은 (a) LLM A*, (b) LLM greedy, (c) Reinforcement Learning(RL) 기반 path planning 결과를 보여줌. LLM greedy의 경우, 너무 최적으로 가려고 하다가, 장애물을 고려하지 못해서 중복된 path들이 많이 보임. 하지만 search space는 가장 적은 편. RL 기반 path planning의 경우, search space도 매우 넓은 편이며 path planning 역시 상대적으로 효율성이 떨어지는 편임.

(a) LLM A*와 (b) LLM greedy, (c) RL 간의 path planning 비교 (출처: LLM A*: Human in the loop LLM enabled A* search for Robotics 논문)

 

 

해당 논문은 LLM을 전체 시스템의 앞단에 위치시켜, 사용자와의 communication과 결과 정리를 맡겼을 때, path planning 알고리즘의 효율성이 높아질 수 있다는 것을 의미하는 논문으로 생각됨.

728x90
반응형