AI칩만큼 데이터 부족... ‘합성데이터’가 대안 될까?

reporter-profile
Sejin Kim 2024.04.03 10:14 PDT
AI칩만큼 데이터 부족... ‘합성데이터’가 대안 될까?
프롬프트: A minimalist and futuristic concept art depicting the integration of AI chips and synthetic data for AI model training

오픈AI의 GPT-5엔 인터넷이 너무 작다
데이터는 AI칩과 함께 AI 모델 훈련 필수재지만
고품질 데이터 부족∙저작권 등으로 품귀 현상
오픈AI∙앤트로픽 등 기업들, 데이터 자체 제작 ‘합성데이터’로 눈 돌려
합성 데이터는 컴퓨터과학계서 논쟁적

바야흐로 인공지능(AI) 인프라를 향한 군비 경쟁 시대다. 대형언어모델(LLM)을 훈련하는데 필수재인 AI 칩 전쟁이 국가전으로 확대되는가 하면 한편에서는 데이터 확보 전쟁이 치열하다.

언어모델은 인간의 언어, 행동, 관습 등을 모방하는 게 기본 골자다. 그 때문에 연구자료, 기사, 위키피디아 등 인터넷에서 생성된 텍스트를 최대한 많이 넣어(인풋) 훈련해야 최고의 결과물(아웃풋)을 얻을 수 있다.

그러나 AI칩처럼 AI 모델 고도화에 필요한 고품질 데이터에도 품귀 현상이 벌어지고 있다. 절대적인 양이 부족한 데다 저작권 문제 등으로 데이터 확보가 더 어려워진 것. 이에 마이크로소프트, 오픈AI, 구글 등 기업은 데이터 원천소스를 늘리는 한편, 인공으로 데이터를 만드는 ‘합성데이터(synthetic data)’에 주목하고 있다.

회원가입 후 뷰스레터를
주 3회 무료로 받아보세요!

단순 뉴스 서비스가 아닌 세상과 산업의 종합적인 관점(Viewpoints)을 전달드립니다. 뷰스레터는 주 3회(월, 수, 금) 보내드립니다.