로봇이 'ChatGPT 순간'을 맞이한다 — Eka의 집게손이 던지는 신호

요즘 로보틱스 업계에서 가장 자주 들리는 표현이 있습니다. 바로 “로보틱스의 ChatGPT 순간”인데요. 그 한가운데에 Eka라는 이름의 로봇 집게손(claw)이 있습니다. 왜 단순한 그리퍼 하나가 이런 거창한 수식어를 달게 됐는지, 오늘은 그 신호를 차분히 짚어보려 합니다.

왜 하필 ‘집게손’이 ChatGPT 순간인가

ChatGPT가 충격적이었던 이유는 단순합니다. 범용성이었습니다. 그전까지 AI는 번역기, 챗봇, 요약기처럼 좁은 용도에 갇혀 있었는데요. ChatGPT는 처음 보는 질문에도 그럭저럭 대답을 해냈죠.

로봇 매니퓰레이션, 그러니까 로봇이 손으로 무언가를 집고 옮기고 다루는 영역도 똑같은 한계에 갇혀 있었습니다. 자동차 조립 라인의 로봇팔은 정해진 부품을 정해진 위치에서만 집을 수 있습니다. 컵 하나를 집으라고 시키면 못 집습니다. 모양이 다르거나, 무게가 다르거나, 미끄럽거나 하는 변수 하나만 들어와도 픽 멈춰버리거든요.

Eka 같은 새로운 세대의 그리퍼가 주목받는 이유는 처음 보는 물체를 처음 보는 자세에서 집어낼 수 있다는 데 있습니다. 학습된 동작을 재생하는 게 아니라, 즉석에서 “어떻게 잡지?“를 추론하는 방식입니다.

손끝의 지능이라는 오래된 숙제

사실 로봇이 걷고, 달리고, 백덤블링하는 영상은 몇 년 전부터 이미 충격이었습니다. 그런데 묘하게도 진짜 어려운 문제는 따로 있었습니다. 두부 한 모를 으깨지 않고 집어 옮기는 것이었죠.

이게 왜 어려운가 하면, 단순히 모터를 정밀하게 제어하는 문제가 아니기 때문입니다. 물체의 형상, 표면 마찰, 무게 분포, 변형 가능성 같은 것들을 동시에 추정하고 손가락 끝의 힘을 실시간으로 조절해야 합니다. 사람은 무의식 중에 하지만, 코드로 옮기면 악몽 같은 문제거든요.

업계에서는 이 영역을 오랫동안 “덱스터러스 매니퓰레이션(dexterous manipulation)"이라고 불러왔습니다. 보스턴 다이내믹스가 휴머노이드를 무대에서 공중제비 시키는 동안에도, 정작 부엌에서 설거지를 시키지 못한 이유가 여기에 있었습니다.

Eka가 다른 점은 뭔가

Eka 같은 차세대 그리퍼들이 들고 나온 변화는 크게 두 가지입니다.

첫째, 비전-언어-액션 모델의 결합입니다. “탁자 위에 있는 빨간 컵을 들어올려"라고 자연어로 지시하면, 모델이 카메라 영상에서 컵을 찾고, 어디를 어떻게 잡아야 할지 그립 포인트를 직접 추론합니다. 사람이 좌표를 일일이 입력하던 시대와는 결이 완전히 다릅니다.

둘째, 촉각 피드백의 통합입니다. 손가락 끝에 달린 센서가 물체와 닿는 순간의 미끄러짐, 압력, 변형을 읽어내고 이를 모델로 다시 흘려보냅니다. 즉, 시각으로 “이렇게 잡아야겠다"고 판단한 뒤에도 실제 접촉 순간에 다시 한 번 보정이 들어가는 구조입니다.

이 두 가지가 합쳐지면 어떻게 되느냐. 사전에 본 적 없는 물체도, 사전에 학습된 적 없는 환경에서도, “일단 한번 해보자"가 가능해집니다. 이게 바로 ChatGPT가 처음 보는 질문에도 답을 내놓던 그 감각과 닮았다는 겁니다.

‘ChatGPT 순간’이라는 비유, 진짜 맞을까

저는 이 비유에 절반은 동의하고 절반은 유보적입니다.

동의하는 부분은 분명합니다. 일반화 능력이라는 측면에서 로보틱스는 진짜로 변곡점에 와 있습니다. 데이터를 충분히 부으면 행동도 일반화된다는 것이, 이제는 주장에서 시연으로 넘어오고 있거든요.

유보적인 부분은 이겁니다. ChatGPT는 인터넷에 글로 쌓인 수십 년치 텍스트를 먹고 자랐는데요. 로봇은 그런 데이터셋이 없습니다. 모든 가정의 부엌에서, 모든 공장의 라인에서, 손이 물건을 만지는 영상을 모아야 하는데 이건 텍스트보다 훨씬 비쌉니다. 그래서 진짜 임계점, 그러니까 누구나 휴머노이드를 사다 부엌에 두는 순간까지는 시간이 더 걸릴 겁니다.

다만 한 가지는 분명합니다. “손끝이 똑똑해지는 속도”가 지난 2년간 눈에 띄게 빨라졌다는 것이죠. Eka는 그 신호 중 하나입니다.

우리는 무엇을 봐야 하나

소비자 입장에서 당장 부엌에 로봇이 들어오진 않을 겁니다. 하지만 물류, 식품 가공, 의료 보조처럼 사람 손이 비싼 영역부터 빠르게 변할 가능성이 큽니다. 다품종 소량생산 공장, 전자상거래 물류센터, 병원 약제실 같은 곳들이 1차 타깃이 될 가능성이 높습니다.

투자자 입장에서는 한 가지 질문을 던져볼 만합니다. 휴머노이드의 몸체를 만드는 회사보다, 그 휴머노이드의 손과 두뇌를 만드는 회사가 더 큰 가치를 가져갈 수 있지 않을까. ChatGPT 시대에 모델 회사가 검색 회사보다 빠르게 성장한 것처럼 말입니다.

여러분은 어떻게 보시나요. 로봇이 진짜로 ChatGPT 순간을 맞이했다고 보시나요, 아니면 또 한 번의 데모와 과장 사이의 어디쯤이라고 느끼시나요. 다음에 마트에서 두부를 집어 들 때, 한 번쯤 생각해보셔도 좋을 질문입니다.

로봇이 'ChatGPT 순간'을 맞이한다 — Eka의 집게손이 던지는 신호

왜 하필 ‘집게손’이 ChatGPT 순간인가

손끝의 지능이라는 오래된 숙제

Eka가 다른 점은 뭔가

‘ChatGPT 순간’이라는 비유, 진짜 맞을까

우리는 무엇을 봐야 하나

댓글

관련 글

AI가 개발자를 대체한다더니… 시타델은 왜 엔지니어를 폭풍 채용하고 있을까

AI가 물을 펑펑 쓴다고요? 데이터를 보면 이야기가 다릅니다

1930년에 ChatGPT가 있었다면? 'Talkie 13B'가 던지는 질문