소라의 진실... 1분 영상 만드는데 최소 1시간, 돈은 얼마나 들까?
오픈AI가 만든 문자 기반 영상 생성모델인 소라(Sora)가 연일 화제죠. 소라는 아직 일반인에게 공개되지 않아 세부사항에 대한 궁금증이 계속되고 있습니다. 회사는 현재 위험성을 방지한다는 목적으로 '레드팀'을 운영, 유해성을 사전 검증하는 단계에 있죠. 이때 일부 테스터들이 소라를 테스트한 결과 1분짜리 비디오를 제작하는 데 렌더링 시간이 1시간 이상이 걸린다는 추측이 나왔습니다. 레딧 게시물, 와이어드 등에서는 테스터들은 “소라 연구원들은 비디오를 렌더링(제작)하는데 얼마나 걸리는지 얘기하지 않았지만 ‘일단 누르면 며칠 쉬는 것보다는 부리토 먹으러 나가는 것에 가까운 느낌’이라고 강조했다”고 전했죠. 게시물에 따르면 테스트에서는 사용자가 직접 프롬프트를 입력할 수 없었습니다. 최대 1분 영상을 만들 수 있다고 말했지만 가장 길게 제작한 영상은 17초로 알려져 있죠. 이를 두고 반응은 분분합니다. 17초까지만 생성된 점을 두고 “20초 후에는 많은 환각 현상이 나타날 것”이라는 우려부터 “고품질 비디오를 제작하는 데 필요한 현재의 육체 노동량과 비교할 때 90분짜리 영화에 90시간 걸리는 건 합리적”이라는 해석도 나왔습니다. 👉 샘 알트만이 7조달러 원하는 이유가 소라 때문? 샘 알트만 오픈AI 최고경영자(CEO)가 대규모 자금을 모집하려는 이유로 ‘소라’가 있다는 추측도 나옵니다. 그는 최근 AI칩 제작을 위해 7조달러(약 9000조원)라는 천문학적 금액을 조달하는 것으로 알려졌습니다. 이에 “현실성이 떨어진다”부터 “AI칩 산업 하나에 이 금액이 필요한 이유가 타당하지 않다”는 비판이 나왔었죠. 이때 이 정도 금액이 필요한 이유로 ‘소라’의 효율성과 확장성 문제가 꼽힙니다. 생성AI 솔루션에서 고품질 결과물을 얻으려면 여러 가지 다른 프롬프트를 사용해 반복하는 과정이 필요합니다. 이든 텍스트든 비디오든 마찬가지죠. 그러나 프롬프트를 반복할 때마다 방대한 데이터와 계산이 필요합니다. 산출물이 텍스트가 아닌 영상일 경우 대형언어모델(LLM)이 처리해야 하는 데이터와 계산은 훨씬 더 무거워지죠. 소라는 사업적으로도 많은 비용을 발생시킵니다. 훈련 데이터에 대한 저작권 문제에 사용료를 지불하는 추세죠. 생성한 콘텐츠에 폭력, 포르노 등을 제어해야 하는 등 ‘책임감 있는 AI’ 개발 비용도 있습니다. 그럼에도 소라는 벌써 콘텐츠 제작 업계에 파장을 불러오고 있습니다. 픽사가 괴물이 움직일 때 괴물 털의 움직임을 만드는 데 수개월이 걸리는 것으로 알려져 있죠. 오픈AI 소라는 이를 획기적으로 단축합니다. 팀 브룩스 소라 연구과학자는 와이어드에 “3D 기하학이나 일관성에 대해 트레이닝 하지 않았지만 그저 수많은 데이터를 합쳐 만들어냈다”면서 단일 이미지만으로 영상을 생성하는 스토리텔링 능력을 강조했습니다.