‘공간 지능’ 대폭발... 페이페이 리 “AR/VR 기본 운영체제 될 것”
‘AI 대모’ 페이페이 리 월드랩스 CEO, a16z 대담
“공간 지능, 언어만큼이나 근본적”
공간 지능 AI 모델 ‘대규모 월드 모델’ 개발 중
애플 비전 프로, 메타 퀘스트 등 사용 사례 무궁무진 예측
디지털과 물리 세계 통합 목표
더밀크의 시각: 컴퓨터 비전·멀티모달 넘어선 새로운 도전
지금 우리는 캄브리아기 대폭발의 한가운데에 있다고 생각합니다.페이페이 리 스탠퍼드대 교수 겸 월드랩스 CEO
페이페이 리 스탠퍼드대 교수 겸 월드랩스 CEO는 “시각적 공간 지능(Visual spatial intelligence)은 언어만큼이나 근본적(fundamental)”이라며 이같이 말했다.
5억4200만 년 전 고생대 캄브리아기가 시작되며 다양한 생물이 폭발적으로 늘어난 것처럼 ‘공간 지능’ 기반의 폭발적 혁신, 기회가 창출될 것이란 주장이다.
리 CEO는 19일(현지시각) 공개된 실리콘밸리 VC a16z와의 대담에서 자신이 창업한 AI 스타트업 ‘월드랩스(World Labs)’와 월드랩스가 추구하는 공간 지능의 의미 및 잠재력에 관해 설파했다.
인간의 지능에는 여러 측면이 있는데, 그중 하나가 언어 지능이며 언어 지능만큼 근본적인 게 공간 지능이라는 주장이다. 공간 지능은 시각 정보를 인식, 처리하는 능력과 밀접하게 연결돼 있다. 공간 지능을 통해 인간은 주변 세계를 이해하고, 직관적으로 상호작용을 할 수 있다.
리 CEO는 “더 많은 가능성, 미지의 세계를 열어준다는 게 좋은 기술의 마법”이라며 “우리는 앞으로 나아갈 것이다. 가능성은 더욱 확대될 것으로 본다”고 했다. 창작, 디자인, 학습, AR/VR, 로봇 공학 등에 공간 지능이 활용될 수 있다는 설명이다. 월드랩스는 이를 위해 ‘대규모 월드 모델(LWM)’을 개발하고 있다고 밝혔다.
리 CEO의 대담한 비전에 a16z, NEA 등 실리콘밸리 톱 VC(벤처캐피털)들은 2억3000만달러(약 3000억원)를 초기 투자로 쏟아부었다. 2006년 이미지넷 프로젝트를 시작, 딥러닝 분야에서 큰 업적을 남긴 ‘AI 대모(Godmother)’와 월드랩스 공동창업자들이 공간 지능을 강조한 이유는 무엇일까?
더밀크의 시각: 컴퓨터 비전·멀티모달 넘어선 새로운 도전
기계가 이미지를 인식, 처리할 수 있도록 하는 기술인 컴퓨터 비전은 오랜 역사를 가진 AI 연구 분야다. 1959년 신경 생리학자들이 고양이를 대상으로 시작한 실험에서 출발, 1963년에는 컴퓨터가 2차원 이미지를 3차원 형태로 변환할 수 있게 됐으며 1974년에는 텍스트를 인식할 수 있는 광학 문자 인식(OCR) 기술이 도입됐다. 2001년에는 최초의 실시간 얼굴 인식 애플리케이션이 등장하기도 했다.
그러나 2010년까지만 해도 컴퓨터 비전은 개와 고양이를 제대로 구분하지 못할 정도로 정확도가 떨어지는 기술이었고, AI는 가능성보다 한계가 더 많은 것으로 인식됐다. 회의적 시각이 팽배해졌고 AI 연구자들이 연구를 포기하고, 기술 전문가들이 다른 분야로 선회하는 ‘AI 겨울’이 찾아왔다.
컴퓨터 비전의 전환점은 2012년 열린 이미지넷(ImageNet) 시각 대회에서 벌어졌다. 100만 개 이미지를 인식해 정확도를 겨루는 이 대회에서 ‘알렉스넷’이 등장, 압도적인 성능으로 우승하며 딥러닝(Deep Learning) 혁명이 일어난 것이다. 알렉스넷은 인간의 뇌 구조를 본뜬 인공신경망 모델 CNN(나선형신경망)을 활용, 심층 신경망(Deep Neural Network) 구현해 75%에 머물던 이미지 인식률을 84.7%로 단번에 끌어올렸다.
알렉스넷을 설계한 팀은 AI 최고 석학 중 하나로 꼽히는 제프리 힌튼 토론토대 교수가 이끄는 팀이었고, 오픈AI 공동창업자 중 하나인 일리야 수츠케버 SSI CEO가 이 팀에 속해 있었다. 지금의 생성 AI 붐을 일으킨 주역인 수츠케버 역시 이미지 인식 기술에서 출발한 셈이다.
더 흥미로운 건 이미지넷 대회를 만든 게 바로 페이페이 리 CEO라는 사실이다. 그녀 역시 이미지넷 대회가 딥러닝과 생성 AI 붐의 모태가 되리라고는 예상하지 못했지만, 컴퓨터 비전, 시각 및 공간 지능의 중요성은 누구보다 잘 알고 있었다.
AI 업계는 굳이 새로운 도전이 필요하지 않을 정도의 학문적, 직업적 성취를 이룬 그녀의 새로운 도전에 주목하고 있다. LLM(대규모 언어 모델)을 넘어서는 완전히 다른 차원의 발전, 기회가 존재할 수 있다는 관측이다.
실제로 리 CEO와 저스틴 존슨 공동창업자는 a16z와의 대담에서 공간 지능과 대규모 세계 모델(LWM)을 최근의 (Multimodal, 다중 모드) LLM과 비교해 설명하기도 했다.
멀티모달 LLM 역시 이미지를 인식하고 생성할 수 있지만, 구조적으로 1차원 토큰(텍스트) 시퀀스에 다른 모달리티(양식)를 끼워 맞추는 방식이다. 반면 공간 지능은 처음부터 세계의 3차원적 특성에 중심을 맞춘다. 결과적으로 다른 방식으로 데이터를 처리, 문제를 해결할 수 있는 새로운 기회의 문이 열릴 것이란 게 월드랩스의 예측이다.
이는 언어를 중심으로 사고하고, 문명을 일군 인간의 방식에서 인간을 넘어선 자연계, 물리 세계, 우주로의 영역 확장을 의미한다. 언어를 습득, 혹은 발명하기 이전의 인간은 세계를 3D 이미지나 영상 자체로 이해할 수밖에 없었다. AI가 인간의 뇌를 모사하는 방식으로 발전하고 있다는 점을 고려하면 공간 지능 역시 탐구할 가치가 충분한 영역이다.
애플이 올해 2월 MR 디바이스인 애플 비전 프로를 출시했고, 메타가 지난 25일 차세대 AR 글래스 ‘오라이언’을 공개하는 등 AR(증강현실), VR(가상현실) 기술 발전 역시 빠르게 이뤄지고 있다는 점도 월드랩스와 공간 지능에 대한 기대감을 높이는 요인 중 하나다.
다만 LWM이 언제 출시될 것인지, 월드랩스가 학문적, 기술적 성취와 별개로 유의미한 비즈니스 성과를 낼 수 있을 것인지에 대한 의문은 남아 있다. 지나치게 오랜 시간 개발을 진행한다거나 실용성이 떨어지는 제품을 선보인다면 지속가능성을 확보하지 못할 가능성도 있다. 월드랩스의 비전이 새로운 혁신을 만들어 낼 수 있을지, 아니면 공허한 울림에 그칠지 귀추가 주목된다.
다음은 대담 주요 내용
공간 지능의 의미… 왜 지금 월드랩스 창업했나
마틴 카사도 a16z 제너럴 파트너:
왜 지금 이 일을 하기로 결심했나?
페이페이 리 월드랩스 CEO:
대학원 졸업 후 처음 제 북극성(North Star, 장기 목표)은 이미지에 대한 것이었다. 이미지는 시각적 지능의 중요한 부분이다. AI 또는 AGI(범용인공지능)의 일부이기도 하다. AI 기술이 100년은 걸릴 거라고 생각했는데, 훨씬 더 빨리 발전했다. 사람이나 로봇 등 모든 지적 존재가 세상을 보고, 추론하고, 상호작용하고, 탐색하거나 조작하거나 무언가를 만드는 방법을 알게 된다면 문명을 구축할 수 있다고 믿는다.
공간 지능은 언어만큼이나 근본적인 것으로, 어떤 면에서는 더 오래되고 더 근본적인 것일 수도 있다. 공간 지능의 문을 여는 것은 저에게 매우 자연스러운 일이며 지금이 바로 그 순간이다. 우리는 컴퓨팅 능력을 갖추고 있으며 과거보다 훨씬 더 깊이 있는 데이터에 대한 이해도 갖추고 있다. 알고리듬도 발전했다.
마틴 카사도:
공간 지능의 의미를 명확히 설명해 달라.
저스틴 존슨 월드랩스 공동창업자:
공간 지능은 3차원 공간과 시간에서 사물과 사건(event)이 어떻게 위치하는지, 세상의 상호작용이 시공간에 걸쳐 어떤 영향을 미칠 수 있는지 이해하고, 기계를 데이터 센터에서 가지고 나와 세상에 내놓고, 그 모든 풍부함으로 세상을 이해하고, 추론하고, 행동하는 능력이라고 할 수 있다.
마틴 카사도:
물리적 세계를 말하나 아니면 추상적인 세계 개념인가?
저스틴 존슨:
둘 다일 수 있다. 가상 세계를 생성하는 경우에도 3D로 배치된 콘텐츠를 생성하면 많은 이점이 있고, 현실 세계를 인식하는 경우에도 3D 이해를 적용할 수 있다면 모든 사람에게 도움이 될 것이다.
과거 10년은 대부분 이미 존재하는 데이터를 이해하는 데 집중해 왔다. 하지만 앞으로의 10년은 새로운 데이터를 이해하는 시대가 될 것이다. 이미 존재하는 데이터는 웹에 존재하는 모든 이미지와 동영상이다.
사람들은 스마트폰을 사용한다. 스마트폰 카메라에는 센서가 장착돼 있다. 3D 세계에 위치한 카메라다. 우리는 카메라가 포착한 이미지를 물리적 세계에 대한 보편적인 센서로 취급한다. 박사 학위 후 3D 컴퓨터 비전, 물체의 3D 모양을 예측하는 작업을 했다. 2D 이미지는 3D 세계를 투영한 것이고, 여기서 활용할 수 있는 수학적 구조가 많이 있다.
페이페이 리:
컴퓨터 비전 분야에서 대부분의 사람들이 모르는 픽셀에 대한 매우 흥미로운 기술에 대해 이야기하고 싶다. 픽셀은 3D 재구성이라는 오랜 역사를 가지고 있다. 인간에게는 두 개의 눈이 있고 일반적으로 스테레오 이미지로 시작한 다음 기하학적 구조를 삼각 측량하여 3D 모양을 만든다. 정말 어려운 문제이고, 근본적으로 해결되지 않았다.
한데 생성 AI 모델 발전으로 인해 무언가를 보거나 무언가를 상상할 때 두 가지가 모두 생성으로 수렴되는 순간이 갑자기 찾아왔다. 이 순간이 컴퓨터 비전에 있어 정말 중요한 순간이라고 생각한다.
마틴 카사도:
오픈AI 등이 멀티모달(Multimodal, 다중 모드) 언어 모델을 선보이고 있다. 월드랩스가 공간 지능으로 하고자 하는 일을 할 수 있지 않을까.
저스틴 존슨:
오늘날 우리가 보고 있는 멀티모달 언어 모델의 경우 그 내부의 기본 표현은 1차원적 표현이다. 컨텍스트 창 길이나 트랜스포머 아키텍처에 대해 이야기한다. 근본적으로 세상을 표현하는 방식이 1차원적이다.
문자는 불연속적인 1차원적 시퀀스이기 때문에 이것은 매우 자연스러운 표현이다. 이런 기본 표현이 LLM(대규모 언어 모델)으로 이어진 것이다. 멀티모달 LLM은 1차원 토큰 시퀀스의 기본 표현에 다른 모달리티(양식)를 끼워 맞추는 방식이다.
반면 공간 지능으로 넘어가면 세계의 3차원적 특성이 표현의 전면과 중앙에 위치한다. 알고리즘의 관점에서 보면 다양한 방식으로 데이터를 처리하고, 다양한 종류의 결과물을 얻고, 다른 문제를 해결할 수 있는 문이 열린다.
페이페이 리:
1차원과 3차원 표현에 대해 이야기하는 것이 가장 핵심적인 차별화 요소 중 하나라고 생각한다. 다른 하나는 약간 철학적인 이야기지만, 언어는 근본적으로 순수하게 생성된 신호라는 점이다.
자연에는 언어가 존재하지 않는다. 우리를 위해 하늘에 단어가 써 있지 않다. 어떤 데이터를 입력하든 일반화 가능성만 충분하다면 동일한 데이터를 어떻게든 역류시켜서 출력할 수 있는데, 그 방식이 언어 대 언어다.
하지만 3D 세계는 그렇지 않다. 물리학 법칙을 따르는 3D 세계는 고유한 구조를 가지고 있으며 이러한 정보를 뒷받침하고, 이를 표현하고 생성하는 것은 근본적으로 완전히 다른 문제다. LLM에서 유용한 아이디어는 차용하겠지만, 이것은 근본적으로, 철학적으로 다른 문제다.
공간 지능 어디에 쓸까?... “AR/VR 기본 운영체제 될 것”
마틴 카사도:
공간 지능의 사용 사례에 대해 구체적으로 설명해 달라.
저스틴 존슨:
공간 지능 모델이 할 수 있는 일에는 몇 가지 종류가 있다. 그중 제가 정말 기대하는 것은 세계 생성(world generation)이다. 우리는 텍스트(text, 문자)로 이미지를 생성하거나 비디오를 생성하는 것에 익숙해져 있다.
이것보다 단계를 높여 3D 세계를 만들 수 있다고 상상할 수 있다. 공간 지능이 미래에 도움이 될 수 있는 한 가지는 이러한 경험을 3D로 높여 완전한 가상, 시뮬레이션, 생동감 넘치는 인터랙티브 3D 세계를 구현하는 것이다. 게임이나 가상 사진 촬영 등 다양한 분야에 활용될 수 있다.
교육용 애플리케이션도 무궁무진하다. 어떤 의미에서는 새로운 형태의 미디어를 가능하게 한다. 우리는 이미 가상 인터랙티브 세계를 만들 수 있는 능력을 갖추고 있지만, 수억 달러와 엄청난 개발 시간이 소요된다. 현재 이 기술을 경제적으로 활용할 수 있는 유일한 방법은 수백만 명에게 판매해 투자금을 회수할 수 있는 게임뿐이다.
만약 이와 같은 가상의 인터랙티브, 생생한 3D 세계를 만들 수 있다면 다른 많은 응용 분야가 나올 것이다. 이런 종류의 콘텐츠를 제작하는 데 드는 비용을 낮추면 사람들이 다른 용도로 사용할 것이기 때문이다. 저는 이것이 바로 생성 영역에서 공간 지능을 통해 실현될 새로운 종류의 미디어에 대한 비전이라고 생각한다.
페이페이 리:
뉴미디어라는 단어를 언급하는 것만으로도 흥미롭다. 이 기술을 사용하면 현실 세계와 가상 세계, 상상 세계 또는 증강 세계 또는 예측 세계 사이의 경계가 모두 모호해진다.
현실 세계는 3D다. 따라서 디지털 세계가 현실 세계와 섞이려면 3D로 표현해야 한다. 2차원만 가지고는 실제 3D 세계와 효과적인 방식으로 인터페이스(interface, 접점에서 정보를 공유한다는 의미)할 수 없다. 잠금을 해제하는 것이다. 공간 지능의 사용 사례는 무궁무진할 것이다.
월드랩스가 설립될 즈음 애플이 애플 비전 프로를 출시했다. 그리고 공간 컴퓨팅이라는 단어를 사용했다. 공간 컴퓨팅에는 공간 지능이 필요하다.
우리는 그것이 어떤 하드웨어 형태를 지니게 될지 모른다. 고글, 안경, 콘택트렌즈가 될 수도 있다. 실제 현실 세계와 그 위에서 할 수 있는 일 사이의 인터페이스가 중요하다. 이 기술은 AR(증강현실), VR(가상현실), MR(혼합현실)의 기본 운영체제가 될 것이다.
저스틴 존슨:
가상과 현실의 혼합이 정말 중요해진다는 사실에 정말 흥분된다. 완벽한 3D로 주변 환경을 실시간으로 이해할 수 있게 되면 현실 세계의 많은 부분이 사라지기 시작한다. 지금은 모두가 다양한 사용 사례를 위해 서로 다른 크기의 화면을 정말 많이 소유하고 있다.
휴대폰도 있고, 아이패드도 있고, 컴퓨터 모니터도 있고, TV도 있고, 스마트워치도 있다. 이들은 모두 기본적으로 서로 다른 상황에서 서로 다른 위치에 정보를 표시해야 하기 때문에 기본적으로 서로 다른 스크린이다.
그러나 가상 콘텐츠와 실제 세계를 매끄럽게 혼합할 수 있는 기능이 있다면 이 모든 것이 필요 없게 된다. 그 순간에 알아야 할 정보를 적절한 메커니즘으로 완벽하게 혼합하는 것이 이상적이다.
페이페이 리:
디지털 가상 세계와 3차원 물리 세계를 혼합할 수 있는 또 다른 큰 사례는 AI 에이전트가 물리적 세계에서 일을 할 수 있도록 만드는 것입니다.
자동차를 고치는 방법을 모르지만, 고글이나 안경을 착용하면 갑자기 안내를 받아 할 수 있게 되는 식이다. 다른 유형의 에이전트, 즉 휴머노이드나 로봇도 있다. 그들의 인터페이스는 정의하자면 3D 세계이지만, 그들의 컴퓨팅, 즉 두뇌는 정의상 디지털 세계다. 물리적 로봇과 로봇의 두뇌 학습, 행동까지 연결하는 게 무엇일까? 바로 공간 지능이다.
최고 인재로 팀 구성… “공간 지능 믿는다는게 가장 큰 차별점”
마틴 카사도:
초기에 사람들이 기대할 수 있는 분야는 무엇인가?
페이페이 리:
디바이스가 아직은 완전히 준비되지 않았다.
저스틴 존슨:
저는 대학원에서 처음으로 VR 헤드셋을 사용했다. 혁신적인 기술 경험 중 하나였다. 그래서 이 분야에 대해 오랫동안 기대해 왔고, 애플 비전 프로를 정말 좋아한다. 하지만 현실적으로 아직 대중에게 다가갈 수 있는 플랫폼은 아니라고 생각한다.
페이페이 리:
회사 입장에서는 준비가 더 많이 된 시장에 진출할 가능성이 높다.
저스틴 존슨:
저희는 딥 테크 기업이라는 개념을 가지고 있다. 우리는 정말 잘 해결해야 할 근본적인 문제가 있고, 정말 잘 해결하면 다양한 영역에 적용할 수 있다고 믿는다. 이 긴 여정을 공간 지능의 꿈을 실현하는 과정으로 보고 있다.
정말 어려운 문제다. AI 분야에 오래 종사한 사람들은 AI를 구축하기 위해 다양한 종류의 인재가 함께 모여야 한다는 것을 잘 알고 있다.
매우 높은 수준의 대규모 엔지니어링과 3D 세계에 대한 깊은 이해가 필요하다. 그래서 팀 구성을 생각할 때 이 각 하위 영역에서 세계 최고 수준 전문가를 어떻게 찾을 수 있을까 고민한다.
페이페이 리:
세계 최고의 연구소를 위한 최고의 창업팀을 어떻게 구성할지 생각해 보니, 다양한 분야에 걸친 최고 그룹에서 시작해야 한다고 생각했다. 저스틴은 제 최고의 제자이자 가장 똑똑한 기술자 중 한 명이다.
다른 공동창업자 두 사람이 있는데, 그중 한 명은 벤 밀든홀(Ben Mildenhall)이다. 또 한 명은 컴퓨터 그래픽 커뮤니티에서 명성이 자자한 크리스토프 라스너(Christoph Lassner)다.
개인적으로 가장 자랑스러워하는 것은 바로 이 강력한 팀이다. 스탠퍼드에서 교수로 재직하면서 가장 똑똑한 젊은이들과 함께 일할 수 있는 특권을 누렸다. 하지만 월드랩스에 모인 인재들의 면면은 정말 경이롭다. 가장 큰 차별화 요소는 우리가 공간 지능을 믿는다는 점이다.
저스틴 존슨:
우주는 거대하고 진화하는 4차원 구조다. 공간 지능은 그 깊이를 이해하고 모든 응용을 알아내는 것이다. 이 여정을 통해 지금 당장은 상상조차 할 수 없는 곳으로 나아갈 수 있을 것이라고 생각한다.
페이페이 리:
더 많은 가능성, 미지의 세계를 열어준다는 게 좋은 기술의 마법이다. 우리는 앞으로 나아갈 것이고, 가능성은 더욱 확장될 것이다.