- 아카이브(arXiv)에 연구 논문 발표
▲서로 다른 로봇들이 다양한 작업을 수행하는 모습 |
UC버클리, 스탠포드대, 카네기멜론대(CMU) 공동 연구팀이 다양한 물체를 효과적으로 조작할 수 있는 로봇 조작(매니퓰레이션)용 오픈소스 범용 모델 ‘옥토(Octo)'를 개발했다고 테크엑스플로어가 10일 보도했다.
연구팀은 이번 연구 성과를 출판전 논문 공개 사이트인 아카이브(arXiv)에 발표했다.(논문 제목:Octo: An Open-Source Generalist Robot Policy)
연구팀은 "현재 인공지능의 발전은 대규모 데이터 세트와 대규모 모델에 의해 주도되고 있다“며, ”우리는 많은 연구 기관의 데이터를 풀링하는 대형 조작 데이터 세트인 '오픈 X-엠바디먼트(Open X-Embodiment)'를 모았다. 이 새로운 데이터 세트는 정말 흥미로운 자원이지만 그동안 이를 활용할 수 있는 모델이 많지 않았다“고 말했다.
연구팀은 이번 연구에서 2가지 목표를 지향했다. 첫 번째는 다양한 로봇에 적용할 수 있는 범용 로봇 모델을 개발하는 것이었고, 두 번째는 미래에 다른 연구자들이 유사한 모델을 만들 수 있는 오픈소스 코드를 만드는 것이다.
연구팀은 "옥토는 우리가 '범용성' 로봇 모델이라고 부르는 것으로, 다양한 종류의 로봇을 제어할수 있다. 예를 들어 '수저를 들어라', '서랍을 닫아라', '테이블을 닦아라' 등의 요구 조건을 충족시킬 수 있는 신경망이다"라고 소개했다.
여러 시스템에 걸쳐 적용할 수 있는 고성능 연산 도구는 일반적으로 파운데이션 모델이라고 부른다. 이러한 모델의 예로는 챗GPT가 있으며, 다양한 에이전트와 시스템에 자연어처리(NLP) 기능을 부여한다.
연구팀은 "우리는 많은 로봇을 제어하고 다양한 작업을 해결할 수 있는 파운데이션 모델을 만들고 싶다”고 말했다. "옥토는 목표를 향한 첫 걸음이다. 그것의 훈련은 챗GPT와 같은 모델들과 매우 비슷해 보인다. 우리는 텍스트 대신에 크고 다양한 로봇 데이터 세트를 큐레이팅하고, 현재의 로봇 상태와 작업 지시가 주어졌을 때 로봇이 실행해야 할 다음 행동을 예측하도록 대규모 모델을 훈련시킨다"고 언급했다.
이 모델은 트랜스포머라고 알려진 챗GPT와 같은 종류의 신경망을 기반으로 하고 있다. 이전에 개발된 다른 로봇 모델들에 비해 옥토의 장점은 그것을 훈련시키는 데 사용되는 데이터의 규모와 유연성이라고 연구팀은 설명했다.
이 모델은 대규모 로봇 조작 궤적 데이터 세트인 오픈 X-엠바디먼트 데이터 세트를 활용해 훈련되었다. 옥토는 다양한 유형의 이미지, 로봇 관절 형태, 언어 명령 등 다양한 범위의 감각 입력을 처리할 수 있다.
장길수 ksjang@irobotnews.com