[르포] 스스로 동작 제어하는 로봇 시대 왔다... 구글이 선보인 미래
‘정책으로서의 코드’... 로봇 스스로 코드 작성
맥락 이해하고 다양한 지시 거침 없이 수행
대형 AI 언어 모델이 핵심... 구글 경쟁력 공고
텍스트 기반 3D 이미지·동영상 창조 시연도
“네가 제일 좋아하는 과자는 뭐지?”
“스키틀즈(skittles) 입니다.”
“그럼 그걸 파란색 통에 넣어 줘.”
“완료했습니다.”
2일(현지시각) 뉴욕 맨해튼. 구글이 올해 4월 오픈한 신규 오피스 ‘피어 57(Pier 57)’에서 흥미로운 로봇 조작 시연이 벌어졌다. 공상 과학 영화에서 인간과 가사 로봇이 나눌 법한 대화가 실제 현실에서 이뤄진 것이다. 이날 구글은 ‘AI(인공지능) 이벤트’를 열고 개발 중인 최신 AI 기술을 대거 공개했다.
AI와 마치 인간처럼 대화를 나누는 것 자체는 새롭지 않은 일이다. 앞서 2021년 구글은 연례 개발자 행사인 ‘구글 I/O’에서 대화형 AI 모델 ‘람다(LaMDA, Language Model for Dialogue Applications)’를 공개했고, 올해 I/O 행사에서도 맥락을 이해하는 새로운 대형(LLM, Large language model) 언어 모델 ‘PaLM(Pathways Language Model)’을 공개해 기술 업계에 충격을 안긴 바 있다.
이 로봇 조작 시연이 놀라웠던 이유는 여기에 중요한 과정 하나가 추가됐기 때문이다. ‘실시간으로’ 자연어(Natural Language, 일상생활에서 사용하는 언어)를 기계어로 번역해 주는 기능이 그것이다. 현장에서 로봇이 다양한 주문에 반응해 즉시 과제를 수행할 수 있었던 건 바로 이 기능 덕분이었다.
자연어를 기계어로 번역해준다는 건 프로그래밍이 필요 없다는 뜻이다. 기계는 0과 1로 이뤄진 기계어로 외부 정보를 인식하는데, 그렇기 때문에 로봇을 조작하려면 프로그램 언어로 기계에 지시를 내려야 한다. 로봇 공학자들 역시 로봇을 개발할 때 이런 프로그래밍 과정을 거친다.
한데 이 로봇은 놀랍게도 PaLM 기반으로 스스로 코드를 만들어 자신의 동작을 제어했다. 프로그래밍 지식이 전혀 없는 일반인도 자연어로 명령을 내려 로봇이 특정 동작을 하도록 만들 수 있었다. 로봇 동작 제어에 사용되는 프로그래밍 언어는 파이썬(Python)이었다.
현장에서 시연을 도운 앤디 쩡(Andy Zeng) 구글 선임 연구 과학자(Senior Research Scientist)는 “로봇이 실제로 명령을 수행하지 못할 수는 있지만, 명령어 자체에는 제약이 없다. 영어가 아닌 다른 언어로도 명령을 내릴 수 있다”고 했다.
‘정책으로서의 코드’... 로봇의 미래 연다
구글은 로봇 동작 제어를 위한 이 AI 언어 프로그램에 ‘정책으로서의 코드(Code as Policies, CaP)’라는 이름을 붙였다. 인간의 지시를 받아 로봇이 스스로 동작 제어 코드를 생성, 인간이 원하는 바를 이뤄줄 수 있다는 의미에서다.
이 프로그램의 가장 큰 장점은 로봇이 다른 작업을 수행하도록 만들기 위해 코드를 다시 쓸 필요가 없다는 점이다. 동일한 로봇이 블록 쌓기를 할 수도 있고, 쓰레기를 분류하는 일도 할 수 있다. 이는 인간의 언어를 이해하고 다양한 작업을 수행하는 범용 로봇의 시대가 더 빨리 도래할 수 있음을 암시한다.
구글이 공개한 CaP의 다른 시연 영상을 보면 실제로 로봇이 수십 가지의 서로 다른 명령을 수행하는 장면이 등장한다. 나무 블록을 특정 장소에 옮기거나 색깔이나 형태를 보고 해당 사물이 무엇인지(과일, 병 등) 인식해 종류별로 분류할 수 있으며 화이트보드 위에 그림을 그리거나 지우는 작업까지도 완벽하게 수행한다.
팔과 바퀴가 달린 로봇이 코카콜라 캔, 사과를 각각 재활용 쓰레기통과 일반 쓰레기통에 넣는 장면도 있다. 미국 IT 매체 테크크런치는 이에 대해 “실제 세계에서 발생하는 시나리오 기반으로 자체 코드를 계속 생성하는 시스템을 개발하기 위한 기초가 될 수 있을 것”이라고 평가했다. 복잡한 작업을 수행하게 만드는 건 쉽지 않겠지만, 인간의 언어를 기반으로 자체적으로 코드를 만들어 낼 수 있기 때문에 앞으로의 활용 가능성은 무궁무진할 수 있다는 분석이다.
실제 이날 현장 시연에서는 로봇이 맥락을 이해하는 장면도 확인할 수 있었다. ‘무슨 과자를 제일 좋아하는지’ 물어본 후 ‘그 과자를 옮기라’고 순차적으로 내린 명령의 맥락을 이해하고 정확히 완료한 것이다. 앤디 쩡 구글 선임 연구 과학자는 “‘윌리 웡카(Willy Wonka & the Chocolate Factory)’ 같은 은유적 표현을 활용해 로봇이 초콜릿을 선택하도록 명령할 수도 있다”고 설명했다.
더밀크의 시각: 대형 언어 모델이 핵심… 동영상까지 창조
CaP는 ‘AI라는 두뇌를 장착한 로봇’이 미래에 어떤 일을 할 수 있을지 보여준 하나의 예시, 시작점이라고 할 수 있다. 범용 로봇의 상용화를 위해서는 관절을 움직이는 액추에이터(actuator)를 비롯한 기계 공학의 발전이 매우 중요하지만, 동작을 제어할 수 있는 두뇌의 발전 역시 중요하다는 점을 구글이 상기시킨 셈이다.
구글이 AI 연구 및 개발에 집중하는 이유가 여기에 있다. 최근 테슬라 역시 인간형 범용 로봇 시제품 ‘옵티머스(Optimus)’를 공개한 바 있다. 미래 기술 주도권을 확보하기 위한 빅테크 간의 경쟁이 앞으로 더 치열하게 벌어질 가능성이 크다.
구글은 특히 대형 언어 모델과 텍스트, 사진 등 다양한 양식의 정보를 동시에 이해할 수 있는 ‘멀티모달(Multimodal, 다중모드)’ 기술에서 탁월한 성과를 만들어 내왔다. 오픈AI, 엔비디아, 메타(페이스북), 테슬라, 애플, 마이크로소프트 등 다양한 기업이 AI 분야에서 경쟁하고 있지만, 전 세계 검색 엔진 시장 점유율 91.88%를 자랑하는 구글이 확보한 다량의 텍스트 및 이미지 데이터를 고려하면 구글이 AI 업계에서 차지하는 위상은 공고해 보인다.
특히 대형 언어 모델은 ‘텍스트투이미지(Text to Image)’ 등 다양한 분야로 확장할 수 있는 기초가 된다. 구글은 이번 AI 행사에서 문자를 입력하면 그 내용을 기반으로 영상을 창조해 낼 수 있는 ‘페나키(Phenaki)’와 ‘이매진 비디오’ 데모를 공개했고, 구글 AI 언어 모델인 람다 기반으로 소설을 쓸 수 있는 ‘워드크래프트(Wordcraft)’, 문자 기반으로 3D 이미지를 만들어 낼 수 있는 ‘드림퓨전(DreamFusion)도 선보였다. 구글의 언어 모델을 기반으로 작동한다는 게 공통점이다.
이밖에 짧은 음성 및 음악을 들려주면 뒷부분을 새롭게 창조할 수 있는 ‘오디오LM(AudioLM)’, AI 기반 홍수 예측 시스템인 ‘플러드허브(FloodHub)’ 업데이트, AI가 초음파 장치를 분석해 임신 여부를 판단해 주는 울트라사운드AI(Ultrasound AI), 자동 망막 질환 평가 도구(ARDA) 등도 공개했다.
순다르 피차이 구글 최고경영자(CEO)는 영상 메시지를 통해 “AI는 우리가 연구하고 있는 가장 심오한 기술이지만, 여전히 초기 단계(still early days)에 있다. 앞으로 더 큰 기회가 있을 것”이라며 “AI 기술이 앞으로 우리 삶에 얼마나 큰 도움을 줄 수 있을지 상상해 보라”고 했다.