‘오픈 vs 폐쇄’ 누가 패권 잡을까... 생성AI 산업의 미래
[2023년 상반기 결산] 생성AI②
AI 기술에 대한 경계심 가져야… 제프리 힌튼 등 석학들 지적
메타, AI 모델 생태계에 충격파… 오픈소스 라마·SAM 공개
아마존·구글 등 기존 빅테크의 생성 AI 도입 움직임도 주목
투자·M&A 지속… 산업 주도권, 기회 확보 위한 경쟁 가열 양상
악의적 의도를 가진 사람이 생성 AI 기술을 나쁜 일에 사용하는 것을 막기가 쉽지 않을 것으로 보인다.제프리 힌튼 토론토대 교수
1편: ‘새로운 타임머신’의 탄생에 이은 2편 기사입니다.
생성 AI(Generative AI) 기술에 대한 기대감 못지않게 이 기술이 초래할 수 있는 부정적 영향에 대한 경계심도 커지고 있다.
일반 대중이 피부로 체감하는 것 중 하나는 생성 AI가 화이트칼라 직업군을 대체할 수 있다는 우려다. 직업을 구하기 위해 어떤 직무 능력을 갖춰야 할지 예상하기 어려워졌고, 미래 세대를 어떻게 교육해야 하는지도 막막하다.
더 근본적인 문제는 인간의 수준을 뛰어넘는 ‘범용인공지능(AGI)’의 출현에 대한 두려움이다. ‘AI 대부(Godfather)’로 불리는 석학 제프리 힌튼 토론토대 교수가 지적한 것처럼 생성 AI 기술의 악용 가능성을 지적하는 목소리도 나온다.
한편 업계 내부에서는 생성 AI 산업 주도권 및 더 많은 기회 확보를 위한 경쟁이 한창이다. 특히 오픈소스(open-source) 기반 공개형 AI 모델과 폐쇄형(closed-source) 생성 AI 모델 진영 간의 패권 다툼이 뜨거워지고 있다.
6. 두려움이 커지다… 6개월 개발 중단 촉구 성명
오픈AI가 선도하던 ‘생성 AI 레이스’에 제동이 걸린 건 지난 3월 29일(현지시각)이었다. 오픈AI가 새로운 대규모 언어모델(LLM) GPT-4를 공개한 지 약 2주 만에 AI 업계 전문가, 석학, 기업가들이 대거 참여한 일종의 ‘반대 성명’이 나온 것이다.
미국 비영리단체 ‘퓨처오브라이프 인스티튜트(Future of Life Institute)는 공개서한을 발표, “GPT-4보다 강력한 AI 시스템에 대한 훈련(training)을 최소 6개월 동안 멈추라”고 요구했다. 전 세계 AI 연구소가 GPT-4 같은 ‘대규모 AI 시스템’ 개발을 중단할 필요가 있다는 게 이들의 주장이었다.
서한 공개 당일 기준으로 일론 머스크 테슬라 CEO, 스티브 워즈니악 애플 공동 설립자, 에마드 모스타크 스태빌리티AI CEO 등 기업가를 포함해 요슈아 벤지오 몬트리올대 교수, 스튜어트 러셀 버클리대 교수, 유발 하라리 히브리대 교수, 앤드류 양 등 저명한 교수, 정치인 총 1200여 명이 서명에 참여했고, 6월 말 기준으로는 서명인 숫자가 3만3000명으로 증가했다.
이뿐 아니다. 같은 달 31일 구글 CEO인 순다르 피차이는 뉴욕타임스와의 단독 인터뷰를 통해 “책임감 있는 접근이 필요하다”며 공개서한의 취지에 공감한다고 밝혔다. 지난 5월에는 ‘AI 대부’로 불리는 제프리 힌튼(Geoffrey Hinton) 캐나다 토론토대학 교수가 구글을 떠나며 AI의 위험성을 경고하기도 했다.
5월 30일에는 민간 비영리단체 ‘AI 안전 센터(CAIS)’가 “AI 기술이 인류를 멸종하게 만들 수 있을 정도의 위험성을 가지고 있다”는 내용의 또 다른 성명을 발표했다. 생성 AI 기술의 가능성, 잠재력에 대한 기대감 못지않게 우려, 두려움, 반발 역시 커졌던 2023년 상반기였다.
7. 메타 라마·SAM 공개… 오픈소스 AI 모델의 도전
페이스북 모회사 메타는 생성AI 산업 흐름을 주도하는 오픈AI에 여러 차례 묵직한 카운터펀치를 날려 끊임없이 화제를 모았다. 지난 2월, 오픈소스 기반 대규모 언어 모델 ‘라마(LLaMA)’를 공개한 게 대표적 사례다.
라마는 650억 개 파라미터(parameters, 매개변수)를 활용해 사전 학습된(pre-trained) LLM으로 오픈AI GPT-3(1750억 개), 구글 PaLM(5400억 개)과 비교하면 훨씬 작은 AI 모델로 평가된다. 흥미로운 건 그럼에도 라마가 나쁘지 않은 성능(GPT-3 수준)을 내는 것으로 알려졌다는 점이다.
더 중요한 사실은 라마가 연구 목적으로 공개된 오픈소스 LLM이라 접근성이 훨씬 높다는 점이다. 실제로 스탠퍼드대학은 최소한의 비용(약 600달러)과 시간으로 라마를 미세조정(fine-tuning), ‘알파카(Alpaca)’라는 경량화 LLM을 개발하기도 했다. 알파카의 파라미터 숫자는 70억 개로 GPT-3.5 수준의 성능을 보인 것으로 전해졌다.
지난 4월 5일 메타가 공개한 이미지 분할(image segmentation) 특화 AI 모델 ‘SAM(Segment Anything Model)’ 역시 오픈소스 모델이다. 메타에 따르면 SAM을 활용하면 이미지 속 모든 개체를 찾아 자동으로 마스킹이 가능하다. 클릭 한 번으로 개체를 분리하거나 마우스 드래그로 객체를 손쉽게 떼어낼 수 있는 것이다. 분할할 대상 즉 객체가 모호할 경우 여러 개의 유효한 마스크를 제시하는 기능도 갖췄다. 사용자가 여러 개의 마스크 중 선택해 마스킹을 진행할 수 있다.
메타 측은 “SAM 모델 공개의 목표는 이미지 분할의 대중화”라며 “SAM 모델은 오픈 라이선스 ‘아파치(Apache 2.0)’에 따라 사용할 수 있다”고 설명했다. 아파치 라이선스는 아파치 소프트웨어 재단에서 만든 소프트웨어 라이선스로 누구나 해당 소프트웨어에서 파생된 프로그램을 제작할 수 있으며 저작권을 양도, 전송할 수 있다는 내용을 담고 있다.
5월 9일에는 텍스트(문자), 이미지, 오디오 등 6가지 유형의 정보를 묶어 학습할 수 있는 오픈소스 AI 모델 ‘이미지바인드(ImageBind)’, 5월 22일에는 라마 기반으로 GPT-4 수준의 성능을 일부 달성했다는 ‘리마(LIMA)’를 공개하기도 했다.
8. 아마존과 구글의 반격… 헤게모니를 지켜라
반면 AI 분야의 다른 강자인 구글, 아마존은 기존에 확보하고 있던 헤게모니를 유지, 강화하는 방향으로 움직였다.
아마존과 구글은 클라우드 컴퓨팅 서비스 AWS와 구글 클라우드를 제공하고 있다. 클라우드 컴퓨팅 서비스는 현대 글로벌 인터넷 비즈니스의 필수 인프라처럼 활용되는데, 여기에 생성 AI 기술을 붙여 클라우드 비즈니스를 강화하는 전략을 취하고 있는 것이다.
구글과 아마존은 클라우드 인프라에 LLM을 더해 ‘AIaaS(서비스형 AI)’를 공급할 수 있는 몇 안 되는 회사다. 마이크로소프트가 오픈AI와 손잡고, 자사 클라우드 컴퓨팅 서비스인 애저(Azure)에서 챗GPT, GPT-4 등을 활용할 수 있게 한 것도 같은 맥락으로 풀이된다.
구글은 지난 5월 10일 진행된 개발자 컨퍼런스 ‘구글 I/O 2023’ 기조연설에서 GPT-4와 경쟁하는 새로운 LLM ‘팜2(PaLM2)’를 공개했고 챗GPT와 비슷한 구글의 AI 챗봇 ‘바드(Bard)’를 비롯해 지메일(Gmail), 구글독스(Google Docs, 문서 작성 도구) 등 25개 구글 제품에 PaLM2를 적용한다고 밝혔다.
또 PaLM API(애플리케이션 프로그램 인터페이스)를 지원하며 자체 개발한 이미지 생성 AI 모델 ‘이매진(Imagen)’, 코드 생성 AI ‘Codey’ 등을 자사 머신러닝(ML) 학습 및 배포 플랫폼 ‘버텍스AI(Vertex AI)’에 도입했다고 밝혔다. 구글 클라우드와 함께 활용할 수 있는 ‘기업용 생성 AI 서비스’를 강화하려는 의도다.
아마존 역시 마찬가지다. 아마존은 지난 4월 13일 새로운 기업용 클라우드 서비스 ‘베드록(Bedrock)’을 출시했다. 베드록은 다양한 생성 AI 모델을 활용해 맞춤형 생성 AI 앱을 만들 수 있는 서비스다. 아마존 클라우드 서비스(AWS)를 바탕으로 아마존이 개발한 대규모 언어 모델(LLM) ‘타이탄(Titan)’을 활용해 생성 AI 앱을 만들 수 있다.
클라우드 서비스 1위 사업자답게 자체 인프라를 최대한 활용, 아마존 중심의 생성 AI 애플리케이션 생태계를 조성하려는 전략으로 풀이된다. 아마존은 지난 6월 22일 고객이 생성 AI 솔루션을 성공적으로 구축하고 배포할 수 있도록 지원하는 ‘AWS 생성 AI 혁신 센터(AWS Generative AI Innovation Center)’를 론칭하기도 했다.
9. 샘 알트만 의회 청문회… 사다리 걷어차기?
샘 알트만 오픈AI(OpenAI) CEO의 미 상원 법사위 법률 소위(Senate Judiciary subcommittee) 청문회 출석도 중요 사건 중 하나였다. 생성AI 선두 주자 오픈AI가 새롭게 획득한 지위를 유지하기 위해 어떤 전략을 취하고 있는지 잘 보여주는 이벤트였기 때문이다.
샘 알트만 CEO는 청문회에서 “강력한 AI는 민주적 가치를 염두에 두고 개발돼야 한다. 이는 미국의 리더십이 중요하다는 걸 의미한다”며 미국 의원들, 규제 당국의 지지를 끌어내려고 노력했다.
그는 “ AI의 엄청난 이점을 누리려면 잠재적인 단점을 파악하고 관리하기 위해 함께 노력해야 한다고 믿는다”며 “위험을 완화하기 위해서는 각국 정부의 규제 개입이 중요하다고 생각한다”고 말했다.
예를 들어, 일정 기능 이상의 AI 모델을 개발하거나 출시할 때 미국 정부가 라이선스 및 테스트 요건을 도입하는 방안을 고려할 수 있다는 것이었다. 이에 대해 업계 일각에서는 “생성AI 분야에서 선도적 지위를 획득한 오픈AI가 후발주자들의 추격을 막으려는 ‘사다리 걷어차기’를 하고 있다”는 평가가 나왔다.
샘 알트만 CEO가 전 세계를 돌며 각국 정부 및 기업과의 협업에 나선 것도 이런 배경 때문이라는 분석이다. 지배력 및 영향력 강화를 위해 앱스토어처럼 AI 모델을 사고팔 수 있는 ‘마켓플레이스(marketplace, 매매 플랫폼)’를 준비하고 있다는 관측도 제기된다.
10. 추격은 계속된다… 데이터브릭스, 모자이크LM 인수
AI 업계에서는 폐쇄형 소스(Closed-source) AI 모델과 오픈소스(Open-source) AI 모델의 경쟁 구도가 강화될 것으로 전망하고 있다.
오픈AI처럼 폐쇄형 LLM을 보유한 기업과 메타, 스태빌리티AI, 데이터브릭스처럼 오픈소스 LLM을 보유한 기업들의 솔루션을 두고 기업들이 선택에 나설 것이란 관측이다. 오픈AI의 API를 사용할 경우 강력한 성능을, 오픈소스 LLM을 미세조정하는 방식을 택할 경우 상대적으로 저렴한 비용과 자체 데이터 기반의 소규모 AI 모델 개발 등을 기대할 수 있다.
지난 6월 26일 데이터 플랫폼 기업 ‘데이터브릭스(Databricks)’가 생성 AI 스타트업 모자이크ML( MosaicML)을 13억달러(약 1조7000억원)에 인수한 사건은 이런 최근의 흐름을 보여준 대표적 사례였다.
모자이크ML은 자체 개발한 대규모 언어 모델(LLM) ‘MPT’로 유명하다. 오픈AI가 개발해 지난 3월 공개한 LLM GPT-4와 달리 오픈소스로 공개된 LLM이며 상업적으로 사용 가능해 업계에서 주목을 받은 바 있다. 앞서 5월 공개한 ‘MPT-7B(파라미터 개수 70억 개)’의 경우 이미 330만 건이 넘는 다운로드를 기록했을 정도로 인기를 누리고 있는 모델이다.
데이터브릭스에 따르면 양사의 통합 솔루션을 활용하면 LLM을 훈련하고 사용하는 비용을 수백만달러에서 수천달러 수준으로 낮출 수 있다. 데이터브릭스는 “모자이크ML과 함께 모든 조직이 자체 데이터를 활용, 생성 AI 모델을 구축, 소유, 보호할 수 있도록 지원하겠다”며 “모든 조직이 생성 AI 기술에 접근할 수 있도록 할 것”이라고 했다.
2023년 상반기 생성 AI 분야 주요 사건 [타임라인]