①3초면 목소리 흉내 ②중국 딥페이크 규제③IBM 삼성에 밀려
마이크로소프트(MS)가 새로운 인공지능(AI) 기반 음성합성 모델 ‘발리(VALL-E)’를 발표했습니다. 3초가량의 오디오 샘플만 있으면 사람의 목소리에 근접하게 시뮬레이션할 수 있는 모델입니다. MS에 따르면 VALL-E는 일단 목소리를 학습하면 그 목소리로 대부분 오디오 파일을 제작할 수 있습니다. 나아가 목소리의 감정 톤까지 조절할 수 있는 기능도 포함했습니다. VALL-E는 메타(Meta)가 지난해 10월 발표한 AI 기반 오디오 압축 기술인 엔코덱(EnCodec)에 기반해 만들어졌습니다. 해당 기술로 음성을 품질 손실 없이 64kbps MP3 형식보다 10배 작은 오디오로 압축할 수 있고, 전화 통화 같은 저품질 음성도 극적으로 음질을 향상할 수 있다는 게 MS의 설명입니다. MS는 VALL-E를 ‘신경 코덱 언어 모델(neural codec language model)"로 정의했습니다.VALL-E는 메타의 리브리라이트(LibriLight)라는 음성 라이브러리에서 훈련받았습니다. 리브리라이트는 7000명 이상 화자와 6만시간 분량의 영어 연설로 구성돼있는 라이브러리죠. 현재까지는 VALL-E가 고품질 음성을 생산하려면 3초 샘플 음성이 훈련 데이터의 음성과 거의 일치해야 하는 가능한 것으로 알려졌습니다. 👉 하지 않은 말도 한 것처럼…괜찮을까?MS는 VALL-E가 음성녹음의 내용을 변경하고 편집할 수 있을 것으로 기대하고 있습니다. GPT-3와 등 다른 생성 AI 모델과도 결합해 오디오 콘텐츠를 생성할 수 있다고 설명하죠. 이는 화자가 원래 말하지 않은 것도 말한 것처럼 편집할 수 있다는 의미입니다. VALL-E는 화자의 발화 내용과 감정 톤을 보존하는 것 외에도 샘플 오디오의 음향 환경도 모방할 수 있습니다. 일례로 샘플 음성이 전화 통화에서 나온 경우 다른 오디오를 생성할 때 전화 통화의 음향 및 주파수 속성을 합성합니다. 음성을 전화 통화에서 나온 것처럼 들리게 할 수 있다는 뜻입니다. 내 목소리가 녹음된 단 3초의 파일로 내가 하지 않은 말, 전화가 아니지만 전화인 것처럼 꾸밀 수 있다면 어떨까요? 이 경우 사회적으로 범죄, 사기 등에 활용될 수 있다는 우려가 나옵니다. 특정 화자를 사칭하거나 음성 식별 시스템을 악용하는 등 악용의 소지가 있죠. 이에 대해 MS는 “이러한 위험을 완화하기 위해 오디오 클립이 VALL-E에 의해 합성되었는지 여부 등을 식별하는 감지 모델을 구축할 수 있다”면서 “모델을 추가로 개발할 때 MS의 AI 원칙을 적용할 것”이라고 전했습니다.