목소리는 어떻게 AI 에이전트가 되나?… 일레븐랩스가 여는 음성AI의 미래

reporter-profile
박원익 2026.06.21 04:53 PDT
목소리는 어떻게 AI 에이전트가 되나?… 일레븐랩스가 여는 음성AI의 미래
일레븐랩스의 ‘더빙 v2(Dubbing v2)’로 제작된 영상. 배우 매튜 맥커너히 특유의 억양과 목소리 톤은 유지된 채 언어만 다양하게 바꾸는 기능이다. (출처 : ElevenLabs)

[테크콘 2026] 홍상원 일레븐랩스 한국총괄이 전망한 음성 AI의 미래
“음성 AI, 응답을 넘어 행동하는 에이전트로 진화”
더빙·음악 생성까지 확대되는 음성 AI
더밀크의 시각: 신뢰·안전성 확보가 음성 AI 확산의 전제

월드컵 시즌, 영화 인터스텔라로 유명한 배우 매튜 맥커너히가 축구공 리프팅을 시작한다. 

“전 세계가 (월드컵을 위해) 여기 모였네요.” 

영어로 시작된 그의 말이 갑자기 일본어, 어느 순간 다시 프랑스어로 바뀐다. 전 세계 축구 팬들이 모이는 축제 기간, 자신의 데킬라 브랜드인 ‘판탈로네스(Pantalones)’를 한잔 마시면 더 쉽게 외국 친구들과 어울릴 수 있을 거라는 영상 광고였다. 

끈적한 저음, 편안하고 느긋한 텍사스 사투리 등 맥커너히 특유의 억양과 목소리 톤은 유지된 채 언어만 자연스럽게 바뀐 것이다. 

이 영상은 AI 스타트업 일레븐랩스(ElevenLabs)의 ‘더빙 v2(Dubbing v2)’로 제작됐다. AI가 내 목소리와 발화 시점의 감정, 어조, 말의 속도, 음색의 특징 등을 유지한 채 언어만 다른 것으로 바꿔주는 기능이다. 원본 화자가 말한 것처럼 AI 더빙으로 누구나 쉽게 언어 장벽을 허물 수 있는 시대가 열린 것이다. 

홍상원 일레븐랩스 한국총괄은 11일 열린 서울 코엑스에서 열린 ‘테크콘 2026(TechCon 2026)’에서 일레븐랩스의 기술과 AI 기반 음성 인터페이스(Interface, 접점)의 미래에 관해 설파했다. 

AI 기술의 발전으로 사람과 다른 사람, 사람과 에이전트(agent, 대리인)의 상호작용이 바뀌고 있으며 그 과정에서 특히 음성이 더 많은 역할을 하게 될 것이란 전망이다. 그는 특히 음성 AI가 단순한 음성 합성을 넘어 고객과 상호작용하고 실제 업무를 수행하는 자율형 AI 에이전트로 진화하고 있다고 강조했다. 

2022년 피오트르 댐코프스키(Piotr Dąbkowski), 마티 스타니셰프스키(Mati Staniszewski)가 설립한 일레븐랩스는 뉴욕 맨해튼에 본사를 둔 첨단 AI 음성 합성 스타트업이다. 북미, 유럽, 아시아, 호주, 중동 등 주요 지역에 사무소를 개설하며 빠르게 사업을 확장 중이다. 올해 2월 투자유치 당시 110억달러(약 16조8000억원)의 기업가치를 인정 받았다.   

홍 헤드는 발표에서 일레븐랩스의 음성 복제(Voice Cloning) 기술 사례를 소개하며 “사람과 유사한 발성을 구현하는 것을 넘어 사람의 감정을 전달하고 공감을 끌어낼 수 있는 수준의 자연스러운 음성 합성 기술을 제공하고 있다”고 했다. 

음성 품질이 낮은 자동화 서비스는 오히려 고객 이탈을 유발할 수 있으며 더빙 v2 사례처럼 고품질 음성 AI가 고객 경험 개선의 핵심 요소가 되고 있다는 주장이다. 

고객 응대 기술이 IVR(음성응답시스템), 챗봇, 보이스 AI로 발전하고 있다는 것. 그는 “이제는 단순히 질문에 답하는 수준을 넘어 고객의 감정을 파악하고, 이에 맞춰 응답하며 실제 업무까지 수행하는 시대가 열리고 있다”고 했다.

홍상원 일레븐랩스 한국총괄은 11일 열린 서울 코엑스에서 열린 ‘테크콘 2026(TechCon 2026)’에서 일레븐랩스의 기술과 음성 AI 미래에 대해 설명하고 있다. (출처 : 더밀크)

“음성 AI, 응답을 넘어 행동하는 에이전트로 진화”

홍 총괄은 일레븐랩스가 현재 음성 합성(TTS), 음성 인식(STT), 음성 복제, AI 에이전트, 더빙, 음악 생성 등 다양한 음성 기반 AI 서비스를 제공하고 있다고 소개했다. 

특히 TTS와 STT 서비스는 99개 언어를 지원하며 문맥과 감정을 반영한 자연스러운 표현이 가능하다는 설명이다.

그중에서도 그가 특히 강조한 건 AI 에이전트 플랫폼인 ‘일레븐 에이전트(Eleven Agents)’다. 다양한 AI 에이전트들이 스스로 판단해 행동하는 자율 AI 시대가 다가오고 있기 때문에 앞으로 에이전트 플랫폼이 더 중요해질 수밖에 없다는 것이다. 

일레븐 에이전트를 사용하면 음성 인식과 음성 생성, 대화 제어 기술을 통합해 고객과 자연스럽게 대화하면서 데이터베이스 조회, 업무 처리, 외부 시스템 연동 등의 작업 등을 수행할 수 있다.

일레븐 에이전트 활용 예시로 은행 고객센터를 가정한 시연도 진행했다. AI 에이전트는 고객의 계좌 정보를 조회하고 이상 거래 내역을 확인한 뒤 지원 티켓을 생성하는 과정을 음성 대화를 통해 자연스럽게 수행했다.

구독자 수 전 세계 1위 유튜버 미스터 비스트 채널에 적용된 AI 더빙 기능 (출처 : ElevenLabs)

더빙·음악 생성까지 확대되는 음성 AI

올해 5월 28일 업데이트된 AI 더빙 서비스 ‘더빙 v2’도 강조했다. 이전보다 감정 표현과 연기 재현 능력이 크게 향상됐다는 게 홍 총괄의 설명이다. 

실제로 음성 인터페이스의 중요성은 기술 업계에서 지속적으로 강조되는 추세다. AI 합성 음성의 어색함이 사라지고, 사람과 구분할 수 없는 수준까지 발전하면서 활용 범위가 확장되고 있는 것이다. 

애플 역시 6월 8일 WWDC 2026에서 완전히 새로운 버전의 음성 비서 ‘시리 AI’를 발표하며 음성 기반 대화형 AI를 사용자 경험의 첫 관문으로 설정한 바 있다. 

👉시리가 다시 태어났다… 제미나이 품은 애플 ‘시리 AI’ 7대 핵심 기능

홍 총괄은 또한 일레븐랩스의 음악 생성 서비스에 대해 “업계 최초로 주요 레이블과 뮤지션으로부터 정식 라이선스를 확보한 데이터만을 활용해 모델을 학습했다”고 강조했다. 

저작권에 민감한 아티스트, 엔터테인먼트 업계와 적극적으로 소통하며 음악 생성 서비스를 제공하고 있다는 설명이다. 

일레븐랩스의 뮤직 v2는 상업적 활용이 가능하고 저작권 문제를 최소화한 것이 특징이다. 모든 장르에 걸쳐 향상된 보컬, 악기 연주 및 편곡을 제공하며 다국어도 지원한다.

현재 일레븐랩스는 1만1000개 이상의 음성을 보유한 음성 라이브러리를 운영하고 있다. 이용자가 자신의 목소리를 등록해 다른 사용자에게 제공할 경우 수익을 공유하는 시스템도 운영한다.

일레븐랩스의 뮤직 v2 화면 (출처 : ElevenLabs)

더밀크의 시각: 신뢰·안전성 확보가 음성 AI 확산의 전제

이날 발표 후 이어진 질의응답 시간에는 음성 AI의 신뢰성과 저작권, 악용 방지 방안에 대한 질문도 나왔다.

홍 총괄은 이에 대해 “기술적 장치와 제도적 장치가 함께 마련돼야 한다”고 답했다. 일레븐랩스 내부에서는 유명인의 음성을 무단으로 복제할 수 없도록 하는 정책을 운영하고 있으며 개인 일반 사용자 역시 본인 인증 절차를 거쳐야 음성 복제 기능을 사용할 수 있다고 설명했다.

실제로 AI 기반 콘텐츠의 활용을 가로막는 가장 큰 걸림돌은 낮은 신뢰성, 악용 가능성 등이다. AI로 만든 이미지, 목소리, 글과 순수 창작물을 구별하기가 어려워지면서 AI 기반 창작에 대한 거부감도 함께 커지는 추세다. 

구글이 신스ID(SynthID)라는 기술을 개발해 자체 AI 모델에 적용하는 것도 이런 문제를 막기 위해서다. 신스ID는 이미지 최소 단위인 픽셀에 보이지 않는 디지털 워터마크(표식)을 삽입, AI가 생성한 콘텐츠를 식별하는 방식을 정립했다. AI가 만든 합성 이미지에 꼬리표를 달아 구분하는 방식이다. 오픈AI 역시 최근 구글과 협력, 신스ID 워터마킹을 추가했다. 

일레븐랩스 역시 같은 접근법을 취하고 있다. AI가 생성한 음성을 식별할 수 있는 분류기(AI Speech Classifier) 기술 등을 통해 해당 음성이 AI 합성 음성인지 여부를 판별할 수 있도록 지원한다.

핵심은 음성 AI가 앞으로 더 널리 활용될 가능성이 높다는 사실이다. 소리, 음성은 인류의 가장 기초적인 소통 방식이이었고, 식별 정확도가 높다면 매우 높은 효율을 제공한다. 문자(text)와 달리 손과 눈의 관여를 줄여 운전 중, 보행 시 등 다양한 환경에 활용 가능하다는 장점도 있다.  

홍 총괄은 “음성은 사람과 AI를 연결하는 가장 자연스러운 인터페이스가 될 것으로 본다”며 “음성 AI가 실제 업무를 수행하는 자율형 AI 시대를 이끄는 핵심 기술로 자리 잡게 될 것”이라고 했다.

회원가입 후 뷰스레터를
주 3회 무료로 받아보세요!

단순 뉴스 서비스가 아닌 세상과 산업의 종합적인 관점(Viewpoints)을 전달드립니다. 뷰스레터는 주 3회(월, 수, 금) 보내드립니다.