로봇이 커피 한 잔 못 나르는 진짜 이유: AI의 역설은?

reporter-profile
크리스 정 2025.10.16 10:17 PDT
로봇이 커피 한 잔 못 나르는 진짜 이유: AI의 역설은?
(출처 : 미드저니 / 크리스 정)

[더밀크 웨비나] AI의 미래, 최전선에서 직접 듣다: 황민영 연구원
자동차는 46초에 조립하면서, 왜 커피 서빙은 못할까
역설의 핵심은 '연속적 의사결정'의 복잡성
로봇 학습의 진화: 따라하기에서 이해하기로의 진화
당신만을 위한 로봇: 개인화 기술...AI가 물리 세계를 이해못한다

📌 더밀크의 AI 핵심 브리핑

  • MIT 연구진 증명: AI는 자동차를 46초에 조립하지만 카페에서 커피 서빙은 실패한다. 99% 정확도 AI도 120번 연속 판단하면 성공률 30%로 추락, 인간의 직관적 행동이 기계에겐 극한 난이도.

  • 테슬라 휴머노이드 로봇 등 서비스 로봇 기업 밸류에이션은 과대평가 위험. 반면 개인 행동 데이터를 학습하는 '로봇 개인화 플랫폼'이 차세대 빅테크 후보로 부상 중.

  • 요리사·간병인 일자리는 20년 이상 안전하나 공장 조립·데이터 입력직은 즉시 위기. AGI 공포보다 '99% 정확도 AI의 자율주행 오용'이 당장의 정책 리스크.

자동차는 46초에 조립하면서, 왜 커피 서빙은 못할까

인공지능의 능력은 우리 직관과 정반대로 작동한다. MIT 컴퓨터과학·인공지능연구소의 황민영 연구원이 더밀크 웨비나에서 제시한 사례가 이를 명확히 보여준다. 2023년 ABB의 산업용 로봇은 자동차 한 대를 46초 만에 완벽하게 조립했다. 하지만 같은 시기 실리콘밸리의 최첨단 로봇조차 일반 카페에서 손님에게 커피를 서빙하지 못했다.

이 역설의 핵심은 '연속적 의사결정'의 복잡성에 있다. 황 연구원은 구체적인 수치로 이를 설명했다. 99% 정확도를 자랑하는 AI 모델이라도 120번의 연속된 결정을 거치면 최종 성공률은 30% 아래로 떨어진다. 7200번의 의사결정이 필요한 작업에서는 성공 가능성이 사실상 제로에 가깝다는 뜻이다.

자동차 조립이 로봇에게 쉬운 이유는 간단하다. 부품의 위치가 정해져 있고, 조립 순서가 고정되어 있으며, 환경이 통제되어 있다. 반면 커피를 서빙하려면 매 순간 변하는 환경에 대응해야 한다. 테이블 높이, 사람의 위치, 장애물, 컵의 기울기 등 수백 가지 변수를 실시간으로 계산하고 조정해야 한다. 인간에게는 본능적으로 쉬운 일이 기계에게는 극도로 어려운 과제가 되는 것이다.

(출처 : 황민영 연구원)

로봇 학습의 진화: 따라하기에서 이해하기로의 진화

로봇 AI 학습 방식은 크게 세 단계로 진화했다. 첫 번째는 '모방학습'이다. 전문가의 시범을 보고 따라하는 가장 직관적인 방식이다. 황 연구원 팀은 단 24개의 시연 데이터와 5분의 학습만으로 서랍을 여는 로봇을 만들었다. 하지만 이 방식은 치명적 약점이 있다. 학습 데이터에서 조금만 벗어나도 복구가 불가능하다는 점이다. 황 연구원의 표현을 빌리면 전문가 경로에서 1mm만 벗어나도 그 오차는 시간이 지날수록 기하급수적으로 증폭된다.

두 번째 진화는 '인간 피드백 기반 강화학습(RLHF)'이다. 챗GPT를 탄생시킨 핵심 기술이기도 한 이 방식은 획기적인 변화를 가져왔다. 로봇이 어떤 행동을 하면 사람이 "이게 더 나아" 또는 "저게 더 좋아"라고 피드백을 준다. AI는 이런 선호도를 학습해서 스스로 보상함수를 만들어낸다. 놀랍게도 500개 정도의 피드백만으로 네 발 로봇이 걷거나 두 발 로봇이 뛰는 것을 학습할 수 있다.

세 번째는 '대규모 통합 모델' 접근법이다. 최근 공개된 OpenVLA 프로젝트가 대표적이다. 1000K에 달하는 방대한 로봇 데이터를 모아서 시각 정보와 언어 명령을 동시에 이해하고 행동으로 변환하는 모델을 만들었다. 메타의 라마(LLaMA) 언어모델과 시각 인식 모델을 결합한 이 시스템은 "테이블 위의 컵 가져와"라는 자연어 명령을 바로 실행할 수 있다.

(출처 : 황민영 연구원)

당신만을 위한 로봇: 개인화 기술...AI가 물리 세계를 이해못한다

모든 사람에게 완벽한 로봇은 존재하지 않는다. 황 연구원의 연구는 이 전제에서 출발한다. 집에서 사과를 찾는 단순한 작업을 생각해보자. 어떤 사람은 구석구석 꼼꼼히 찾기를 원한다. 다른 사람은 최단 경로로 빠르게 찾기를 바란다. 또 다른 사람은 바닥의 물건을 밟지 않고 안전하게 움직이기를 원한다. 같은 작업이지만 세 가지 완전히 다른 접근이 필요하다.

황 연구원은 이를 '다중목적 정책함수'로 해결했다. 탐색의 완전성, 경로의 효율성, 이동의 안전성을 각각 숫자로 표현한다. 사용자의 선호도를 벡터로 변환해서 로봇의 행동을 실시간으로 조정하는 방식이다. 사용자는 직접 시범을 보이거나, "안전하게 움직여"라고 말하거나, 두 가지 행동 중 마음에 드는 것을 선택하는 방식으로 자신의 취향을 전달할 수 있다.

실험 결과는 흥미롭다. 동일한 공간에서 동일한 물체를 찾는 작업이었지만, 시간 효율을 중시하는 설정에서는 직선 경로가 나왔고, 탐색 완전성을 중시하는 설정에서는 나선형 경로가 자동으로 생성됐다.

현재 AI의 한계는 세 가지로 요약된다. 첫째, 멀티모달 데이터 통합의 실패다. 챗GPT는 이미지를 보고 텍스트를 이해하지만 로봇에 필수적인 촉각은 이해하지 못한다. 만일 AI에게 "부드럽게 잡아"라고 한다고 해도 그 '부드럽게'가 정확히 몇 뉴턴의 힘인지 AI는 모른다는 의미다.

둘째, 물리적 상호작용에 대한 근본적 무지다. 황 연구원의 실험이 이를 잘 보여준다. AI에게 "로봇이 사람에게 가위를 안전하게 전달하는 그림"을 그려달라고 해도 모든 AI가 실패한다. 로봇은 항상 가위의 손잡이를 잡고 있다. 하지만 실제로 안전한 전달은 날 부분을 잡고 손잡이를 상대방에게 향하게 하는 것이다. GPT-4o를 포함한 최신 모델도 이 간단한 상식을 이해하지 못한다.

셋째, 일반화 능력의 한계다. 인간은 한 번의 경험을 수천 가지 상황에 적용한다. 하지만 AI는 빨간 컵으로만 훈련받으면 파란 컵 앞에서 멈춰 선다. 수백만 개의 데이터로 학습해도 약간의 변화에 적응하지 못한다.

(출처 : 황민영 연구원)

더밀크의 시각: AI가 할 수 있는 일, 그리고 어려운 일...그것이 단서다

황민영 연구원의 연구가 우리에게 던지는 메시지는 명확하다. AI 혁명은 우리가 상상하는 것과 다른 경로로 진행될 것이다. 역설적으로 인간에게 어려운 일부터 자동화되고 쉬운 일은 오랫동안 인간의 영역으로 남을 것이다. 이는 '모라벡의 역설'이 단순한 이론이 아니라 투자와 정책 결정의 나침반이 되어야 함을 의미한다.

현재 글로벌 자본시장은 AI 인프라 투자에 연간 1조 달러 이상을 쏟아붓고 있다. 하지만 물리적 세계에서 작동하는 AI, 즉 로봇 분야에서는 아직도 커피 한 잔 제대로 나르지 못한다. 이 간극이 바로 기회다. 과대평가된 영역을 피하고, 과소평가된 영역을 찾는 것. 그리고 AI가 잘하는 것과 못하는 것의 경계를 정확히 이해하는 것. 이것이 앞으로 10년간 승자와 패자를 가를 핵심 역량이 될 것이다.

이 기사와 관련있는 기사 현재 기사와 관련된 기사들 입니다.