[기획] 생성AI 신산업 혁명 시대... AI 대리인 전쟁 시작

reporter-profile
박원익 2024.06.02 14:00 PDT
[기획] 생성AI 신산업 혁명 시대... AI 대리인 전쟁 시작
젠슨 황 엔비디아 CEO가 6월 2일(현지시간) 열린 컴퓨텍스2024 기조연설에서 '신산업혁명(A New Industrial Revolution)'을 선포하고 있다 (출처 : 엔비디아/편집: 더밀크)

[생성AI 신산업혁명] ① 멀티모달 AI 대리인(에이전트) 출시 경쟁
챗봇은 에이전트로 변한다… “업무 60~70% 자동화”
AI 에이전트 어디에 쓰나?... 빌 게이츠도 주목
핵심은 ‘멀티모달’... 사람처럼 보고·듣고·말한다
경량화 + 온디바이스 AI 부상… MS-오픈AI 연합 흔들리나

1890년 니콜라 테슬라는 AC 발전기를 발명했습니다. 전기 혁명을 일으킨 것이죠. 우리는 AI 발전기를 발명했습니다. AI 발전기는 토큰(token, 의미를 가진 text의 최소 단위)을 생성하며 거의 모든 산업에 적용될 수 있습니다. 그렇기 때문에 이것은 새로운 산업 혁명입니다.
젠슨 황 엔비디아 CEO, 6월 2일(현지시간) 개최된 컴퓨텍스2024 기조연설에서

젠슨 황 엔비디아 CEO는 2일 대만에서 개최된 컴퓨텍스2024에서 '생성AI 기술이 촉발한 신산업 혁명'에 대해 역설했습니다.

더밀크는 지난 1월 CES, 3월 엔비디아 GTC, 5월 오픈AI의 스프링 업데이트, 구글I/O 2024 등 혁신 현장을 취재하며 '신산업 혁명'이 오고 있다는 확신이 들었습니다. 이에 [생성AI 신산업 혁명] 특별 기획기사를 준비하게 됐습니다. GPT-4 출시 후 1년 이상 흐른 현재 AI 업계 지형도 변화를 포착하고 대비하기 위함입니다.

1편으로 멀티모달 모델의 발전과 이를 활용한 AI 대리인(에이전트) 등장을 준비했습니다. 이어 온디바이스 AI 및 관련 기업을 집중적으로 살펴보는 2편, 동영상을 비롯한 콘텐츠 생성 부문의 발전, 네이버 등 국내 기업 동향, 미래 전망까지 차례로 시리즈 기사가 이어질 예정입니다. 많은 관심바랍니다.

생성 AI 에이전트는 인사(HR), 재무, 고객 서비스에 이르기까지 비즈니스의 모든 영역을 자동화할 수 있는 진정한 ‘가상 노동자(virtual workers)’가 되고 있습니다.
라리 하말라이넨 맥킨지 수석 파트너

생성AI 기술 기반으로 독립적인 작업을 수행할 수 있는 ‘AI 에이전트’가 비즈니스를 바꾸고 있다는 라리 하말라이넨 맥킨지 수석 파트너의 분석이다. 그는 “생성 AI 기반 에이전트는 작업 과정(workflow)을 자동화할 수 있는 잠재력이 있다”고 강조했다. 

실제 빅테크 및 주요 AI 업체들은 최근 ‘AI 에이전트’를 중요한 키워드로 내세우고 있다. 지난 5월 13일(현지시각)에 진행된 오픈AI의 스프링 업데이트, 14일에 열린 구글 I/O, 21일에 있었던 마이크로소프트(MS) 빌드까지 모든 행사에서 공통적으로 AI 에이전트가 언급됐다. 

주요 AI 기술 업체들이 AI 에이전트를 강조하는 이유는 무엇일까? 이 트렌드 이면에서는 어떤 물밑 경쟁이 벌어지고 있을까. GPT-4 공개 후 1년가량 흐른 현재, 빠르게 변화하고 있는 생성 AI 산업의 지형도를 살펴봤다. 

생성 AI 기술 발전에 따른 업무 자동화 시나리오 (출처 : McKinsey)

챗봇 가고 에이전트 왔다… “업무 60~70% 자동화 가능”

“챗봇은 잊어라. AI 에이전트가 미래다.”

미국 IT 전문지 와이어드는 AI 에이전트의 미래가 이미 도래했다고 천명했다. 코그니션이 개발한 소프트웨어 엔지니어 ‘데빈(Devin)’이 이미 그 가능성을 보여줬다는 것이다. 데빈은 단순 코딩 도우미를 넘어 사람의 개입 없이 전체 프로젝트를 자율적으로 완료할 수 있는 AI 에이전트다. 

AI 에이전트는 이처럼 환경과 상호작용하고, 데이터를 수집하고, 데이터를 사용해 사전 결정된 목표 달성을 위해 필요한 작업을 스스로 결정, 수행할 수 있는 AI를 뜻한다. 사람이 목표를 정하면 AI 에이전트는 그 목표를 달성하기 위해 필요한 최적의 조치를 독립적으로 선택한다는 점이 특징이다. 

사람과 텍스트(text, 문자)로 대화하는 수준에 그치는 챗봇과 달리 스스로 행동을 취할 수 있는 것이다. 예컨대 고객 문의에 대응하는 콜센터 AI 에이전트(상담원)는 고객에게 자동으로 여러 질문을 하고, 내부 문서 정보를 조회하거나 해결책을 찾아 대응할 수 있다. 

맥킨지에 따르면 오늘날 글로벌 산업군에 속하는 업무 시간의 60~70%는 이론적으로 생성 AI를 비롯한 다양한 기존 기술 역량을 적용해 자동화할 수 있을 전망이다. 고객 대응의 경우 AI 에이전트로 4000억달러(약 554조원) 이상의 잠재적 가치를 창출할 수 있다는 분석이 나온다.

AI 에이전트가 작업을 체계적으로 구현하는 과정을 도식화한 그래픽 (출처 : AWS)

AI 에이전트 어디에 쓰나?... 빌 게이츠도 주목

아마존웹서비스(AWS)는 AI 에이전트를 사용할 때 기업이 얻을 수 있는 이점을 크게 네 가지로 정의했다. 비즈니스 운영과 고객 경험 개선 분야에 적용하기 좋다는 분석이다.

①생산성 향상

AI 에이전트는 사람의 개입 없이 특정 작업을 수행하는 자율 지능형 시스템이므로 보다 효율적으로 비즈니스 성과를 내는 데 활용할 수 있다. 특히 반복 작업을 AI 에이전트에게 위임할 때 생산성 향상을 기대할 수 있다. 사람은 단순 업무나 반복 작업 대신 더 중요한 활동, 창의적인 활동에 집중해 더 많은 가치를 창출하게 된다.

②비용 절감

작업 효율성 제고는 비용 절감과 직결된다. AI 에이전트를 활용한 자동화로 사람의 오류, 수동 작업에서 발생하는 불필요한 비용을 줄일 수 있다.

③정보에 입각한 의사 결정

AI 에이전트는 수집된 대량의 데이터를 사람보다 빠르게 처리하고, 활용할 수 있다. 이는 비즈니스 관리자가 전략을 수립할 때 더 빠른 속도로 더 정확한 예측을 하는 데 도움을 준다.

④고객 경험 개선

고객은 기업과 상호 작용할 때 편리하고 개인화된 경험을 기대한다. AI 에이전트와 고객 데이터를 통합하면 기업은 추천 제품을 개인화하고, 빠르게 대응할 수 있게 된다. 이는 고객 참여, 전환율, 충성도를 높이는 효과로 연결될 수 있다.

구글은 고객 에이전트(Customer Agents), 직원 에이전트(Employee Agents), 크리에이티브 에이전트(Creative Agents), 데이터 에이전트, 코드 에이전트, 시큐리티 에이전트까지 총 6가지 AI 에이전트 유형을 제시, 각 유형별 실제 적용 사례를 공유한 바 있다. 빌 게이츠 MS 설립자는 AI 에이전트가 “윈도우 후 가장 큰 컴퓨팅 혁명”이라며 4가지 산업 영역을 가장 먼저 혁신할 것이라고 예측한 바 있다.

👉구글 ‘생성 AI 에이전트’ 시대 천명… 고객 상담·영상 편집 척척

👉‘AI 에이전트’ 어떻게 적용할까… 구글이 공개한 실제 사례들

👉빌 게이츠 “5년 내 완전히 바뀐다”… ‘AI 에이전트’가 혁신할 4대 분야

구글이 공개한 6가지 AI 에이전트 (출처 : Google)

유니버설 AI 에이전트, 핵심은 ‘멀티모달’... 사람처럼 보고·듣고·말한다

5월에 진행된 주요 AI 기업들의 시연은 AI 에이전트의 가능성이 얼마나 큰지 극명하게 보여줬다. 이미지·비디오·텍스트·오디오 데이터를 이해하고 입출력할 수 있는 ‘멀티모달(Multimodal)’ 모델이 적용되기 시작했다는 점이 핵심 변화다.  

멀티모달 모델 기반의 AI 에이전트는 사람처럼 의사소통할 수 있다는 점 때문에 진정한 비서 역할을, 더 자연스럽게 해낸다. 텍스트만 처리하는 에이전트 대비 월등히 높은 활용도를 지닌 셈이다. 실제로 새로운 멀티모달 모델 GPT-4o가 적용된 챗GPT는 영화 ‘그녀(Her)’에 등장하는 사만다, 영화 ‘아이언맨’에 등장하는 자비스처럼 사람과 음성으로 소통하며 실시간 통역사, 개인 교사 역할 등 다양한 작업을 수행했다.  

데미스 하사비스 구글 딥마인드 CEO는 구글 I/O 2024에서 AI 에이전트 ‘프로젝트 아스트라’를 “유니버설(Universal) AI 에이전트”라고 소개했다. 모든 작업을 할 수 있는 에이전트라는 뜻에서다. 기억력을 갖춘 프로젝트 아스트라가 스마트폰 카메라로 본 사물(안경)의 위치를 기억하고 음성으로 정확히 알려주자 기조연설 현장에서 이를 지켜보던 개발자들 사이에서 큰 탄성이 터져 나오기도 했다. 멀티모달 모델 ‘제미나이 1.5 프로’ 기반으로 작동하는 에이전트여서 가능한 일이었다. 

MS 역시 빌드 2024에서 AI 에이전트를 전면에 내세웠다. 코그니션과 파트너십을 체결, 소프트웨어 에이전트 데빈을 고객에게 제공하며 자사 클라우드 서비스 애저(Azure)를 통해 가장 먼저 GPT-4o를 서비스한다고 밝혔다. 

비교적 규모가 적은 SLM(소규모 언어 모델) 제품군인 파이-3에 이미지 인식 기능을 더한 멀티모달 모델 ‘파이-3-비전(Phi-3-vision)’도 공개했다. 파이-3-비전을 사용하면 그래픽이나 차트 이미지를 AI 에이전트에 제시, 관련 질문을 할 수 있다.

데미스 하사비스 구글 딥마인드 CEO가 구글 I/O 2024 기조연설에서 프로젝트 아스트라에 관해 설명하고 있다. (출처 : 더밀크 박원익 )

더밀크의 시각: 경량화 + 온디바이스 AI 부상

구글 I/O 하루 전에 오픈AI가 스프링 업데이트 행사를 진행한 건 ‘멀티모달 AI 에이전트’ 경쟁이 그만큼 치열하다는 것을 암시한다.

시장과 업계, 잠재적 고객, 개발자들의 주목을 받기 위해 하루 먼저 멀티모달 모델, 에이전트를 공개한 것이다. 실제로 구글 I/O 현장에 참여한 개발자, 업계 관계자들 사이에서는 GPT-4o와 프로젝트 아스트라가 계속해서 함께 언급됐다. 

가장 강력한 멀티모달 모델을 가진 오픈AI와 구글이 이 경쟁의 선두에 있고 오픈AI와 연합한 MS, 멀티모달 모델 클로드3를 보유한 앤트로픽, 강력한 오픈형 모델 라마3 및 멀티모달 모델 ‘카멜레온(Chameleon)’을 보유한 메타가 뒤를 바짝 추격하는 형국이다. 

모델 경량화 및 온디바이스(On-Device) AI 역시 중요한 흐름이다. 스마트폰, PC, 스마트 글래스 같은 모바일 기기에서 멀티모달 AI 에이전트가 활용될 가능성이 크기 때문이다.

메타가 레이밴 메타 스마트 글래스에 메타 AI를 탑재하고, MS가 코파일럿+PC를 선보인 배경도 여기에 있다. MS는 모든 코파일럿+PC에 경량화 모델인 ‘파이 실리카(Phi-Silica)’를 탑재했다. 

모바일 기기는 야외를 포함, 언제 어디서든 사용할 수 있고, 사용자와 가장 가까이 위치한다는 점에서 데이터 수집에도 유리하다. 전문가들은 향후 특정 기업이 양질의 학습 데이터, 개인화 서비스에 활용 가능한 사용자 정보 등을 얼마나 확보할 수 있는지에 따라 AI 에이전트의 성능이 좌우될 것으로 전망하고 있다. 모바일 기기는 향후 자율주행차, 로봇으로 확장될 가능성이 높다.

사티아 나델라 마이크로소프트 CEO가 마이크로소프트 빌드 2024에서 ‘파이 실리카’를 발표하고 있다. (출처 : Microsoft)

애플, xAI 다크호스로… MS-오픈AI 연합 흔들리나

애플과 일론 머스크가 이끄는 AI 스타트업 xAI가 다크호스로 떠오를 가능성도 제기된다. 두 회사가 고품질의 하드웨어 기기, 양질의 데이터를 확보하고 있다는 이유에서다.

애플은 아이폰, 아이패드, 맥북, 비전 프로 등 20억 대 이상의 활성 기기를 보유하고 있다. 오픈AI는 이런 애플의 강점을 활용, 더 많은 사용자에 다가가기 위해 음성 비서 ‘시리(Siri)’에 GPT 기술을 탑재하는 방안을 추진 중이다.  

xAI의 경우 최근 실리콘밸리 주요 VC로부터 60억달러(약 8조2000억원)에 달하는 대규모 투자금을 유치했다. 소셜미디어 X(옛 트위터), 가장 큰 개인용 디바이스인 테슬라 차량으로부터 실시간, 양질의 데이터를 확보할 수 있다는 점이 주효했다. 

한편 경쟁 구도가 복잡해지면서 MS와 오픈AI의 동맹 관계가 흔들릴 수 있다는 분석도 나온다. 실리콘밸리 전문 매체 디인포메이션에 따르면 샘 알트만 오픈AI CEO는 최근 사티아 나델라 MS CEO를 만나 오픈AI와 애플의 거래가 MS 클라우드 제품에 어떤 영향을 미칠지에 대한 MS의 우려에 관해 논의했다.

오픈AI와 애플의 계약으로 인해 오픈AI 기술을 강조해 왔던 MS의 일반 소비자 대상 제품에서 차별성이 사라질 수 있다는 우려다. 반면 오픈AI와 애플의 계약이 오히려 MS에 이익이라는 주장도 제기됐다. 애플 효과로 오픈AI 서비스 사용량이 증가하면 MS의 클라우드 서비스 ‘애저(Azure)’ 매출이 늘어날 것이란 관측이다. 

음성 AI 에이전트 분야 주요 기업 (출처 : a16z)

AI 인사이트 리포트(AI Insight Report, AIR) 3호 발간!

기업 고객을 위한 프리미엄 보고서 더밀크 AI 인사이트 리포트(AIR) 3호는 오픈AI의 GPT-4o 발표, 실리콘밸리 마운틴뷰에서 열린 구글 클라우드 I/O 2024 현장 취재 소식을 중심으로 구성됐습니다. AI 업계에서 활동하는 키플레이어들의 전망, 인사이트를 담은 <AI 인사이트> 시리즈, 현업 종사자들의 다양한 시각을 제시하는 <AI 오피니언>도 포함됐습니다. 모두 더밀크에서만 만나볼 수 있는 익스클루시브 콘텐츠입니다. 

AI 분야 데일리 이슈를 일목요연하게 정리한 <데일리 AI 센싱>으로 한 달 동안 발표된 AI 업계 이슈를 빠짐없이 챙길 수 있으며 생성 AI 분야 전문 용어, 개념을 알기 쉽게 풀이한 <이달의 키워드>를 통해 꼭 알아야 할 필수 지식도 쌓을 수 있습니다. AIR로 앞서가세요!

*기업구독 고객은 매월 무료로 AIR를 받아보실 수 있습니다.

👉더밀크 AIR 3호: AI 에이전트 전쟁 특집

회원가입 후 뷰스레터를
주 3회 무료로 받아보세요!

단순 뉴스 서비스가 아닌 세상과 산업의 종합적인 관점(Viewpoints)을 전달드립니다. 뷰스레터는 주 3회(월, 수, 금) 보내드립니다.