- 대형 언어모델(LLM)에서 영감받아
▲ MIT 연구팀이 범용 로봇 학습 기법을 개발했다(사진=MIT 뉴스) |
MIT 연구팀이 방대한 양의 이종(異種) 데이터를 결합해 로봇에게 다양한 작업을 학습시킬 수 있는 기술을 개발했다고 밝혔다. 이 기술을 활용하면 여러 소스로부터 방대한 데이터를 수집해 다양한 작업을 수행할 수 있는 범용 로봇을 개발할 수 있다.
연구팀에 따르면, 로봇공학자들은 특정 로봇과 작업에만 적합한 데이터를 수집해 통제된 환경에서 로봇을 훈련시킨다. 하지만 데이터를 수집하는데 많은 비용과 시간이 들기 때문에 로봇이 이전에 경험하지 못한 환경이나 작업을 만나면, 적응하는 데 어려움을 겪을 가능성이 높다.
28일 MIT 뉴스 보도에 따르면 MIT 연구팀이 개발한 방법은 시뮬레이션 환경과 실제 로봇 등 다양한 영역의 데이터, 그리고 비전 센서와 로봇 팔의 인코더 등 여러 양식(multiple modalities)의 데이터를 생성형 AI 모델이 처리할 수 있도록 공유된 '언어'로 정렬한다. 이 접근 방식은 방대한 양의 데이터를 결합함으로써 매번 처음부터 로봇을 훈련시킬 필요없이 다양한 작업을 수행할수 있도록 해준다.
이번 연구는 ‘아카이브(arXiv)’에 공개됐으며(논문 제목:Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers), 오는 12월 10~15일 캐나다 밴쿠버 컨벤션센터에서 열리는 ‘신경정보 처리 시스템 컨퍼런스(the Conference on Neural Information Processing Systems)'에서 발표될 예정이다.
이 방법은 적은 양의 작업 데이터를 필요로 하기 때문에 기존 기법보다 빠르고 비용이 저렴하다. 시뮬레이션과 실제 실험 결과 처음부터 로봇을 훈련시키는 것보다 20% 이상 더 우수한 성능을 보인 것으로 나타났다.
논문 수석 저자인 대학원생 리루이 왕은 “로봇공학에서 사람들은 충분한 훈련 데이터가 없다고 주장한다. 하지만 또 다른 문제는 데이터가 매우 다양한 영역, 모드, 로봇 하드웨어에서 나온다는 것이다. 우리의 접근법은 이 모든 것을 종합해 로봇을 훈련시킬 수 있는 방법을 제시한다”고 말했다.
연구팀은 “GPT-4와 같은 대형 언어 모델(LLM)에서 영감을 얻었다. 로봇공학에선 데이터의 이질성을 고려할때 사전 학습을 하려면 다른 아키텍처가 필요하다”고 강조했다.
로봇 데이터는 카메라 이미지, 언어 지침, 심층지도 등 다양한 형태로 만들어진다. 동시에 각각의 로봇들은 팔, 그리퍼, 센서 등의 위치와 수가 상이하며, 데이터 수집 환경도 다양하다.
MIT 연구팀은 다양한 모드와 영역에서 생성되는 데이터를 통합할수 있는 ’이종 사전훈련 트랜스포머(HPT·Heterogeneous Pretrained Transformers)‘라는 새로운 아키텍처를 개발했다. 연구팀은 트랜스포머로 알려진 머신러닝 모델을 아키텍처 중앙에 배치해 비전시스템과 로봇 고유의 입력 값을 처리하도록 했다. 여기서 트랜스포머는 대형 언어 모델의 백본을 이루는 모델과 동일한 유형이다.
연구팀은 비전과 로봇 고유한 데이터를 ’토큰‘이라는 동일한 유형의 입력으로 정렬시켰다. 트랜스포머는 모든 입력을 하나의 공유 공간에 매핑하여 더 많은 데이터를 처리하고 학습하면서 사전 학습된 거대한 모델로 성장한다. 트랜스포머가 커질수록 성능이 향상된다. 사용자는 로봇이 수행하고자 하는 작업에 대한 소량의 데이터만 HPT에 제공하면 된다. 그런 다음 HPT는 트랜스포머가 새로운 작업을 학습하기 위해 사전 학습하는 동안 얻은 지식을 전달한다.
HPT 개발의 가장 큰 과제 중 하나는 트랜스포머를 사전 학습시키기 위한 대규모 데이터 세트를 구축하는 것이다. 여기에는 인간 시연 동영상과 시뮬레이션 등 20만 개 이상의 로봇 궤적을 가진 52개의 데이터 세트가 포함되어 있다.
한편 이번 연구는 아마존 그레이터 보스턴 기술 이니셔티브와 도요타연구소(TRI)로부터 일부 자금을 지원을 받았다.
장길수 ksjang@irobotnews.com