①팟캐스트 자동 음성 번역 ②ADT의 로봇 실험 ③도시계획 AI에 맡긴다
스포티파이-오픈AI, 이제는 음성이다
경비원, 이제 로봇이? ADT의 실험
도시 계획, AI가 인간보다 잘한다
팟캐스트가 인공지능(AI)을 만나 진화하고 있습니다.
25일(현지시각) 음악 스트리밍 업체 스포티파이는 AI로 팟캐스트를 다른 언어로 자동 재생하는 기능을 도입했다고 밝혔습니다. 이때 스포티파이 도구는 음성-텍스트 번역을 넘어서 팟캐스터 목소리를 다른 언어로 합성한 버전으로 송출한다는 점에서 기존 번역기와 차이가 있죠.
번역은 오픈AI의 음성 전사 도구인 위스퍼(Whisper)를 이용해 이뤄집니다. 이 도구는 영어 음성을 전사(받아쓰기, transcribe)해 다른 언어로 번역하죠. 회사는 닥스 셰퍼드, 모니카 패드먼, 렉스 프리드먼, 빌 시몬스, 스티븐 바틀렛 등 소수의 팟캐스터와 제휴, 이들의 영어 에피소드를 스페인어로 번역해 송출할 예정입니다.
향후 수 주 안에는 프랑스어, 독일어 번역 기능을 출시할 예정입니다. 지아드 술탄(Ziad Sultan) 스포티파이 개인화 부문 부사장은 성명에서 “음성 번역은 창작자의 목소리를 일치시킴으로써 전 세계 청취자들에게 그 어느 때보다 더 진정한 방식으로 새로운 팟캐스터를 발견하고 영감을 줄 수 있는 힘을 제공한다”고 말했습니다.
👉 오픈AI LLM 기반 알렉사 만든다
오픈AI는 앞으로도 음성 복제 부분에 관여할 가능성이 높습니다. 이를 보여주듯 같은 날 회사는 자사 챗봇에 시각, 청각, 음성 기능을 추가한다고 밝혔습니다. 기존에 업데이트가 챗봇이 답변할 수 있는 질문 혹은 접근할 수 있는 정보 등 기본모델에 관한 것이었다면, 이번 업데이트는 챗GPT의 사용방식을 바꾸는 대대적인 변화죠.
오픈AI는 향후 2주안에 챗GPT 유료 구독자를 대상으로 음성 혹은 사진 업로드 만으로 AI봇에게 메시지를 보낼 수 있는 버전을 출시할 계획입니다. 음성 기능은 알렉사나 구글어시스턴트와 유사합니다. 버튼을 탭하고 질문하면 챗GPT가 이를 텍스트로 변환, 대형언어모델에 제공하고 답변을 음성으로 다시 전달하죠. 이에 기존 알렉사 등 가상비서도 LLM을 기반으로 재구축될 가능성이 나옵니다.
이미지 검색은 구글 렌즈와 유사합니다. 사진을 찍으면 챗GPT가 질문하는 내용을 파악하고 그에 따라 응답하죠. 또 앱의 그리기 도구를 사용해 쿼리를 명확하게 하거나 이미지와 함께 질문을 말하거나 입력할 수 있습니다. 다만 오픈AI는 블로그에서 “음성 기능은 악의적인 행위자가 공인을 사칭하거나 사기를 저지를 가능성이 있다”면서 기능을 제한적으로 제공한다고 밝혔습니다.