인공지능이 로봇 분야에 빠르게 접목되면서 파운데이션 모델, 임바디드 AI (Embodied AI), 멀티모달 모델 등이 큰 주목을 받고 있습니다. 여기서는 2024년 이후 주요 학회와 저널에 발표된 관련 연구들을 쉽고 간략하게 정리합니다.
로보틱스 파운데이션 모델 (범용 로봇 AI 모델)
파운데이션 모델이란 GPT-4처럼 방대한 데이터로 미리 학습되어 여러 과제에 범용적으로 적용될 수 있는 AI 모델을 말합니다. 로봇 분야에서도 하나의 거대 모델로 여러 로봇 임무를 수행하려는 시도가 늘고 있습니다. 대표적인 연구들은 다음과 같습니다:
- RoboCat (딥마인드, 2024): 서로 다른 여러 로봇 팔과 다양한 작업에서 얻은 경험 데이터를 한 모델에 모아 학습한 범용 로봇 조작 모델입니다. 예를 들어, 로봇 팔 세 종류가 시도한 집기, 놓기 등의 시演 데이터를 합쳐 이 모델(RoboCat)을 훈련했습니다. 그 결과 RoboCat은 새로운 작업이나 새로운 로봇 종류에도 빠르게 적응할 수 있었는데, 추가로 시범을 몇 개(수십~수백 개)만 보여줘도 금방 새로운 임무를 해내거나 심지어 추가 학습 없이도 어느 정도 해내는 모습까지 보였습니다. 또 한 번 학습된 모델이 스스로 데이터를 더 생성하여 성능을 향상시키는 **자기 개선(self-improvement)**도 시도되었는데, 이는 마치 인간이 여러 경험을 종합해 새로운 기술을 익히고, 시행착오를 통해 실력을 높여가는 과정과 유사합니다. 이 연구는 한 가지 AI 두뇌로 여러 로봇을 유연하게 운용할 가능성을 보여주었습니다.
- GR00T N1 (엔비디아, 2025): 엔비디아가 주도한 이 연구는 **휴머노이드(사람처럼 팔과 다리가 있는 로봇)**를 위한 오픈소스 파운데이션 모델을 선보였습니다. GR00T N1은 Vision-Language-Action (VLA) 모델이라고 불리는데, 카메라 영상과 사람의 언어 지시를 받아들이는 모듈과, 로봇의 움직임을 실시간 생성하는 모듈이 하나로 통합된 구조입니다. 방대한 다양한 데이터로 학습했는데, 실제 로봇이 물체를 조작한 시연 데이터, 사람 동작을 담은 비디오, 시뮬레이션으로 만든 가상 데이터까지 혼합해訓練했습니다. 그 결과 이 모델은 시뮬레이션 상 다양한 로봇에서 기존 방법들을 능가하는 성능을 보였고, 실제 휴머노이드 로봇(포이어 GR-1 모델)으로 두 팔을 이용한 복잡한 작업(예: 양손으로 물건 집어 옮기기 등)을 수행할 때도 높은 성공률과 효율을 보였습니다. 이 연구는 범용 로봇 모델을 공개해 더 많은 연구자들이 활용할 수 있도록 했다는 점에서도 의미가 있습니다. 궁극적으로 이렇게 학습된 모델이 탑재된 휴머노이드 로봇은 일상 가정이나 작업장에서 사람 명령을 이해하고 다양한 작업을 척척 해내는 만능 로봇으로 발전할 잠재력이 있습니다.
- V-GPS: 파운데이션 모델 성능 향상 기법 (UC 버클리, 2024): 파운데이션 로봇 정책 모델들은 대개 대량의 시범 데이터로 학習됩니다. 그런데 이 데이터에는 사람이 시행착오한 흔적이나 불완전한 시演도 섞이기 마련입니다. UC 버클리 연구진은 이렇게 품질이 제각각인 데이터로 학習된 거대 모델의 한계를 보완하는 아이디어를 제시했습니다. 가치 함수(value function)를 별도로 학習시켜, 로봇이 매 순간 할 수 있는 여러 행동 중 가장 좋은 선택을 하도록 조언해주는 방식입니다. 일종의 두뇌 보조 장치가 실시간으로 “이 행동이 성공에 얼마나 유리한지” 점수를 매겨주는 셈입니다. 흥미롭게도, 이렇게 학習한 하나의 가치 평가 모듈이 있으면 내부 구조나 훈련 데이터가 서로 다른 여러 종류의 로봇 AI 모델에도 두루 적용되어 성능을 끌어올릴 수 있었습니다. 실험에서는 서로 다른 5가지 최신 로봇 모델(예: 여러 연구팀의 파운데이션 정책들)에 이 방법을 적용해, 로봇 팔 플랫폼 여러 대에서 12개 작업의 성공률을 고르게 개선해냈습니다. 이 연구는 대형 AI 모델의 신뢰도와 성공률을 높이는 현실적 방법으로 주목받고 있습니다. 향후 로봇을 실제 가정이나 산업현장에 투입할 때, 이런 가치 함수 모듈이 안전장치나 성능 향상 도구로 활용될 수 있습니다.
- RT-2 (구글 딥마인드, 2023): 2023년 말 발표된 RT-2 모델은 비록 2024년 이전이지만 로보틱스 파운데이션 모델 논의에 큰 영향을 준 연구로 자주 언급되므로 간략히 소개합니다. RT-2는 웹에서 학習된 거대 비전-언어 모델에 로봇 행동 데이터를 접목시켜, 인터넷 지식과 시각 이해능력을 그대로 로봇 제어에 활용한 사례입니다. 핵심 아이디어는 로봇의 행동도 일종의 “언어”로 취급하여, 이미지 설명이나 질의응답 데이터를 학習하던 모델에 로봇 제어 시퀀스를 텍스트 토큰 형태로 함께 학習시키는 것입니다. 그 결과 단일 모델이 로봇 센서 입력을 받아 행동을 결정하면서도, 웹 학習을 통해 얻은 상식과 추론 능력을 발휘할 수 있게 되었어요. 예컨대 RT-2는 훈련 때 보지 못한 새로운 물체를 식별하고 다룬다거나, 훈련 데이터에 없었던 새로운 지시도 이해하는 등 일반화 능력이 향상되었습니다. 사용자가 “가장 작은 물건을 집어 들어”와 같이 조건이 있는 명령을 내리면 사전 지식에 기반한 추론으로 그 요구를 수행하고, 심지어 “졸린 사람에게 어떤 음료가 좋을까?”처럼 맥락이 필요한 질문에 에너지 드링크를 집어주는 식의 반응도 가능했죠. RT-2는 비전-언어-액션(VLA) 모델이라는 개념을 대중화하며, 이후 많은 로봇 연구에 영감을 주었습니다.
로보틱스와 임바디드 AI 시스템 (몸을 가진 지능형 로봇)
임바디드 AI란 물리적인 몸을 갖춘 인공지능을 뜻하며, 로봇이 대표적입니다. 최근에는 **대형 언어 모델(LLM)**이나 생성형 AI를 로봇에 접목해, 단순히 프로그래밍된 동작만 하는 게 아니라 스스로 상황을 인식하고 계획하도록 만드는 연구가 활발합니다. 이러한 AI+로봇 통합 시스템 중 주목받는 사례들은 다음과 같습니다:
- ELLMER 프레임워크 (Nature Machine Intelligence, 2025): 2025년 Nature 자매지에 공개된 연구로, GPT-4 같은 거대 언어 모델을 로봇 두뇌로 활용하여 예측 불가능한 환경에서도 복잡한 일을 해내는 시스템을 선보였습니다. 연구팀은 이를 **“임바디드 대형 언어 모델 로봇”**이라고 부르며, 간단히 ELLMER라고 명명했습니다. 이 로봇의 두뇌인 GPT-4에는 사전에 요리법이나 도구 사용법 등 방대한 지식이 들어있습니다. 여기에 추가로, 필요한 정보를 그때그때 찾아주는 검색 장치(예: 데이터베이스에서 적절한 예시를 불러오는 RAG; Retrieval Augmented Generation 기법)와, 실시간 센서 피드백(카메라 영상, 물체를 잡을 때 힘 센서 등)을 결합했습니다. 쉽게 말해 기억력 좋고 똑똑한 로봇 비서를 만든 셈입니다. 이 시스템을 통해 긴 연속 작업도 수행했는데, 예를 들어 “커피를 만들어서 손님에게 대접하고, 접시에 장식 그림을 그려라” 같은 복잡한 부탁을 사람의 개입 없이 로봇 혼자 완료했습니다. 실험에서 로봇 팔(Kinova Gen3 모델)은 서랍을 열고 컵을 꺼내 커피를 내리고, 아이싱 펜으로 접시에 그림을 그리는 등 일련의 행동을 유기적으로 해냈습니다. 사람처럼 중간에 상황이 바뀌어도 (예: 물건 위치 변경, 예상과 다른 저항 느낌 등) 센서 정보를 토대로 GPT-4가 계획을 수정하면서 임무를 완수했지요. 이는 복잡하고 유동적인 현실 환경에서 로봇이 자율적으로 일할 수 있는 가능성을 보여준 사례로 큰 의미가 있습니다. 향후 가정용 서비스 로봇이나 간호 로봇 등이 이런 기술로 사용자의 모호한 지시도 이해해서 창의적으로 수행하는 모습을 상상해볼 수 있습니다.
- 일본 연구진이 개발한 GPT-4 기반 시스템으로 명령을 받은 휴머노이드 Alter3 로봇이 '헤비 메탈 음악 연주' 동작(에어 기타)을 수행하는 모습. 일본 도쿄대와 스타트업 Alternative Machine의 연구자들은 오픈AI의 GPT-4 모델을 이용해 휴머노이드 로봇을 자연어로 제어하는 실험을 2024년에 선보였습니다. 사람처럼 머리·팔·몸통을 가진 로봇 Alter3에게 “휴대폰을 꺼내서 셀카를 찍어”와 같은 평범한 문장으로 명령하면, GPT-4가 그 의미를 이해하고 로봇 동작 시퀀스로 변환해줍니다. 예컨대 “록 음악에 맞춰 에어 기타를 쳐 봐”라고 하면, 로봇이 기타를 치는 흉내를 내는 일련의 관절 움직임을 GPT-4가 생성해주고, 그 동작 리스트를 로봇 제어 코드로 자동 변환하여 실제 로봇이 해당 포즈를 취합니다. 기존에는 이런 휴머노이드에게 특정 행동을 가르치려면 43개 관절을 일일이 수동 조작하며 프로그래밍해야 했는데, 이 방법을 쓰면 한 줄의 문장만으로도 로봇에게 새로운 동작을 가르칠 수 있어 훈련 과정이 크게 단축됩니다. 실제로 연구진은 GPT-4가 만들어낸 동작 지시들이 전문가가 수작업으로 만든 동작보다滑らか하고 자연스러울뿐 아니라, 사람의 상상 속 행동(유령 흉내, 뱀처럼 꿈틀거리기 등)까지 창의적으로 구현해낸다는 점을 보여주었습니다. 이는 언어로 로봇을 직관적으로 프로그래밍하는 시대를 앞당긴 연구로 평가됩니다. 가까운 미래에는 일반인이 “로봇아, 방 좀 치워줘”라고 말하면 로봇이 알아듣고 알아서 청소까지 해내는 일이 현실화될 수 있겠습니다.
- GPT-4를 활용한 로봇 시각 학습 (MSR, 2024): 마이크로소프트 연구소(MSR)는 GPT-4의 시각 기능(GPT-4V)을 응용하여 “로봇이 사람 시범을 한 번 보고 따라하게 만드는” 흥미로운 방식을 선보였습니다. 사람에게 어떤 작업을 가르칠 때 시범을 보여주듯이, 로봇에게도 영상으로 가르치자는 것입니다. 구체적으로는 사람이 어떤 물체를 잡고 조립하는 시연 비디오를 GPT-4V가 분석하여, 거기서 환경과 행동에 대한 설명을 텍스트로 뽑아냅니다. 그러면 일반 GPT-4 모델이 그 설명을 읽고 로봇이 따라할 행동 계획(예: “1단계: 오른손으로 컵을 집어 올린다. 2단계: 컵을 물병 위에 기울인다…”)을 만들어냅니다. 마지막으로 컴퓨터 비전 모듈이 영상 속 사람 손동작을 분석해 **구체적인 좌표나 물체 잡는 방법(affordance)**을 파악하고, 이를 로봇 명령으로 변환하여 실제로 로봇이 실행하게 합니다. 요약하면, 한 번의 시범 영상만으로 로봇을 가르치는 원샷 학습을 구현한 것이죠. 여러 가지 일상 시나리오로 시험한 결과, 이 방법으로 실제 로봇들이 사람 시범을 보고 유사한 작업을 성공적으로 수행했습니다. 다만 현 단계의 GPT-4V는 가끔씩 영상 내용을 잘못 이해하는 환각 현상도 보여, 인간의 검수나 피드백이 여전히 필요하다고 지적합니다. 그럼에도 불구하고 이 연구는 복잡한 로봇 프로그래밍 없이 카메라로 시범만 보여줘서 가르치는 미래형 로봇 훈련 방식을 제시했다는 점에서 큰 관심을 끌었습니다. 장차 제조 현장에서 작업자가 시범을 보이며 로봇에게 새 작업을 가르치거나, 가정에서 부모가 어떤 집안일을 해보이며 가사로봇을 교육하는 모습도 기대해볼 수 있습니다.
멀티모달 모델의 로봇 적용 (시각-언어-행동 통합 AI)
멀티모달 모델은 여러 종류의 입력과 출력을 한꺼번에 다루는 AI를 말합니다. 예를 들어 **시각 정보(카메라 영상)**와 언어를 동시에 이해하고, 거기에 맞춰 움직임을 만들어내는 모델이죠. 로봇 분야에서는 이런 비전-언어-액션(VLA) 모델을 활용해 보다 똑똑한 로봇을 만들려는 연구가 많습니다. 앞서 소개한 RT-2, GR00T N1, ChatVLA 같은 모델들이 이러한 흐름에 속합니다. 특히 2024년에는 멀티모달 AI를 로봇의 이해력과 상황 대응력을 높이는 데 활용한 흥미로운 결과들이 나왔습니다:
- NaviLLM (CVPR 2024): 중국 CUHK 연구진은 여러 가지 로봇 길찾기/내비게이션 과제를 한꺼번에 잘 해내는 범용 내비게이션 AI를 발표했습니다. 기존의 로봇 내비게이션 모델들은 주로 특정 임무(예: 특정 방 찾아가기, 질문에 답하며 이동하기 등)에 맞춰 개별적으로 개발되었는데, NaviLLM은 하나의 거대 언어 모델(LLM)을 다양한 이동 시나리오에 적응시킨 것이 특징입니다. 비결은 **“스키마 기반 지시어”**라는 방법으로, 여러 작업들을 하나의 **일관된 문제형식(텍스트 생성 문제)**으로 통합한 것입니다. 쉽게 말해, 로봇이 해야 할 다양한 임무를 공통의 언어 틀로 표현해주면, 하나의 AI가 그 틀을 따라 답을 내놓도록 훈련할 수 있다는 뜻입니다. 이를 통해 지도 따라 방 찾기, 사람 질문에 답하며 이동하기, 3D 환경 묘사하기 등 각기 다른 Embodied AI 과제들이 모두 NaviLLM 하나의 모델로 해결 가능해졌습니다. 실제 여러 벤치마크 테스트에서 NaviLLM은 이전 최고 성능 모델들을 크게 능가했고, 처음 접하는 유형의 새로운 과제(예: 3D 공간 Q&A나 시각-언어 기반 설명)에도 놀라운 범용 적응력을 보였습니다. 한 예로, 사람이 “부엌에 가서 노란 물체 옆에 있는 빨간 컵을 가져와”라고 하면, NaviLLM은 주변 시각 환경을 파악해 그 지시를 이해하고 차근차근 이동 경로를 생성하여 임무를 완수합니다. 이 연구는 한 개의 LLM 기반 두뇌로 로봇의 길찾기, 질문응답, 관찰 설명까지 모두 수행하게 한 것으로, 서비스 로봇이 여러 임무를 통합 수행하는 방향에 중요한 진전을 보여주었습니다.
- 시각-언어-액션 통합모델을 활용한 로봇 대화/조작 (ChatVLA, 2024): 복잡한 멀티모달 학習 과정에서 시각언어 이해 능력과 로봇 조작 능력을 모두 잃지 않고 잡아내는 것은 큰 도전입니다. 2024년 발표된 ChatVLA 프레임워크는, 대화형 AI의 언어이해력과 로봇의 물체 조작 능력을 하나의 모델에 통합하기 위해 **단계적 학習(Phased Learning)**과 전문가 혼합(MoE) 구조를 도입했습니다. 먼저 로봇 조작 데이터로 기본 동작 컨트롤을 학습시킨 후, 추가로 시각-텍스트 멀티모달 데이터를 점진적으로 주입하여 모델이 언어/시각 이해력을 회복하도록 했습니다. 또한 모듈별 전문가 네트워크를 둬서 작업 간 간섭을 줄였습니다. 그 결과 ChatVLA 모델은 이미지 묘사나 시각 질의응답 같은 언어적 이해 과제에서도 기존 멀티모달 모델 대비 훨씬 높은 성능을 내면서, 동시에 실제 로봇 25가지 조작 작업에서도 다른 VLA 방법들을 뛰어넘는 성공률을 보였습니다. 요컨대 말도 잘 통하고 일도 잘하는 일종의 만능 로봇 비서 AI의 가능성을 엿보인 것입니다. 이런 기술이 발전하면, 향후 로봇이 인간과 자연스럽게 대화로 소통하면서도, 대화 내용에 따라 실제 물리적 작업까지 척척 수행하는 모습을 기대해볼 수 있습니다.
上述한 연구들처럼, 거대 언어 모델과 시각 AI를 로봇에 접목하는 흐름은 로봇을 더욱 유연하고 똑똑하게 만들고 있습니다. 예를 들어, 로봇 청소기가 단순히 방안을 돌아다니는 것을 넘어 사용자 음성 명령을 이해하고, 집 안 물건을 식별하며, 필요하면 인터넷 지식까지 참고하여 최적의 행동을 결정하는 미래를 그리고 있습니다. 물론 이런 멀티모달 로봇 AI들이 실제 생활에 쓰이려면 신뢰성과 안전성 등의 과제가 남아 있지만, 2024년 이후의 연구 성과들은 그 잠재력을 분명히 보여주고 있습니다. 앞으로 로봇이 우리의 일상 속 파트너로서 더욱 똑똑하게 상호작용하게 될 날을 기대해도 좋을 것 같습니다.