인간처럼 6가지 감각 지닌 AI가 온다... 메타, 오픈소스 파상공세

박원익 2023.05.09 16:00 PDT

(출처 : QI YANG, Gettyimages)

인간처럼 몰입감 있는 ‘다중 감각’ 학습... 활용도 높아
영상에 맞는 오디오 생성도 가능… 멀티모달 학습의 미래

메타가 텍스트(문자), 이미지, 오디오 등 6가지 유형의 정보를 묶어 학습할 수 있는 새로운 오픈소스 AI 모델을 공개했다. 대규모 언어 모델 ‘라마(LLaMA)’, 이미지 분할(image segmentation) 특화 모델 ‘SAM(Segment Anything Model)’에 이어 잇따라 오픈소스로 AI 모델을 발표하며 업계에 적지 않은 파문을 일으키는 모양새다.

메타는 9일(현지시각) 텍스트, 이미지·비디오, 오디오뿐 아니라 깊이(3D), 열(적외선), 동작과 위치를 계산하는 관성 측정 장치(IMU) 센서 데이터까지 총 6가지 정보를 묶어 학습할 수 있는 AI 모델 ‘이미지바인드(ImageBind)’를 출시했다고 밝혔다.

상용화되지 않은 연구 목적의 AI 모델이지만, 6가지 서로 다른 양식의 정보를 동시에 학습, 이해할 수 있는 ‘멀티모달(Multimodal, 다중모드)’ AI 모델이 공개된 건 이번이 최초다. 오픈AI가 공개한 GPT-4처럼 상업화된 유료 ‘폐쇄형 파운데이션 모델(Closed-Source Foundation Models, 기초 모델)’이 아닌 연구에 무료로 활용 가능한 ‘오픈형 파운데이션 모델(Open-Source Foundation Models)’이라는 점에서 의미가 크다는 게 업계의 평가다.

인간처럼 6가지 감각 지닌 AI가 온다... 메타, 오픈소스 파상공세

인간처럼 몰입감 있는 ‘다중 감각’ 학습... 활용도 높아
영상에 맞는 오디오 생성도 가능… 멀티모달 학습의 미래

회원가입 후 뷰스레터를
주 3회 무료로 받아보세요!

[사전 브리핑] 스페이스X를 기술과 자본, 두 개의 렌즈로 해부한다

구글 I/O 2026, 인터넷 경제에서 에이전트 경제로의 전환

토큰 팩토리 혁명: 에이전트 경제 생존 전략

인간처럼 6가지 감각 지닌 AI가 온다... 메타, 오픈소스 파상공세

인간처럼 몰입감 있는 ‘다중 감각’ 학습... 활용도 높아 영상에 맞는 오디오 생성도 가능… 멀티모달 학습의 미래

회원가입 후 뷰스레터를 주 3회 무료로 받아보세요!

[사전 브리핑] 스페이스X를 기술과 자본, 두 개의 렌즈로 해부한다

구글 I/O 2026, 인터넷 경제에서 에이전트 경제로의 전환

토큰 팩토리 혁명: 에이전트 경제 생존 전략

인간처럼 몰입감 있는 ‘다중 감각’ 학습... 활용도 높아
영상에 맞는 오디오 생성도 가능… 멀티모달 학습의 미래

회원가입 후 뷰스레터를
주 3회 무료로 받아보세요!