멀티모달AI 시대... 지능형 에이전트 더 똑똑해진다
AI기술의 발전이 가속화되면서 멀티모달AI가 주목받고 있다. 멀티모달AI는 텍스트, 이미지, 비디오 등 다양한 형태의 데이터를 동시에 이해하고 처리하는 능력을 가진 AI를 말한다. 인간의 기본적인 감각은 청각, 촉각, 후각, 미각, 시각이다. 사람은 이 다섯 가지 감각을 통해 주변 세계를 인식하고 이해한다. 멀티모달 AI의 목표는 다양한 형식(텍스트, 비디오, 이미지, 오디오 등)의 데이터를 통합해 인간과 유사한 방식으로 작동할 수 있는 시스템을 만드는 것이다. 최종 목표는 인간의 감각 기관의 정보를 디지털 정보로 변환해 AI 시스템에 전달해 통제 및 사용이 가능해지는 것이다. 기기 사용의 접근성을 한층 더 증대해 사용 제한의 한계를 극복하는 방향으로 진화할 것이다.기존 AI 모델이 주로 텍스트나 이미지 등 단일 형태의 데이터에 특화돼 있었다면, 멀티모달AI는 다양한 유형의 데이터를 동시에 처리하고 이해할 수 있다. 이러한 능력은 AI가 보다 복잡하고 다양한 실제 세계의 문제를 해결하는 데 큰 도움이 될 것으로 기대된다.멀티모달AI의 장점으로는 사용자 편의성 증대, 시스템 접근성 확대 (장애인들, Field worker), 사용자 만족도 확대, 서비스 정확도 향상(다양한 형태의 크로스 체크가 가능하기 때문), 시장 선점 가능성 확장, 기반 기술의 성숙으로 인한 빠른 기술 개발이 가능한 점 등이 있다. 이 새로운 AI의 등장은 단순히 기술의 진보를 넘어 AI가 인간의 인지 과정을 더욱 정교하게 모방할 수 있게 되었음을 의미한다. 이는 AI와 인간의 상호작용을 더욱 자연스럽고 효과적으로 만들 뿐만 아니라, 다양한 산업 분야에서 혁신적인 응용 가능성을 제시한다. 멀티모달AI 시장은 이미 빠르게 성장하고 있다. 베를린에 기반을 둔 오픈소스 멀티모달 검색 엔진 스타트업인 지나AI가 예상한 AI의 미래 스펙트럼 그래프에 따르면, AI 산업이 멀티모달AI 시대에 진입했음을 알 수 있다. 또한 KBY 리서치에 따르면, 글로벌 멀티모달AI 시장은 2019년부터 2030년까지 연간 평균 32.2% 속도로 성장해 84억달러(약 11조 5684억원)에 이를 것으로 예상된다.