조경현 교수 “기업은 자체 LLM 만들어야 합니다. 이유는...”
[더밀크 빅인터뷰] 조경현 뉴욕대 교수
AI 석학 조경현 뉴욕대 교수, 파운데이션 모델 데이터 불투명성, 편향성 지적
오류 수정 어렵고, 지식 축적 못 따라가... 라이선스 변경, 종속성도 문제
성공사례 ‘로슈’... “데이터, 의지 있다면 조금이라도 일찍 시작해야”
자신의 데이터로 언어 모델을 처음부터 직접 훈련하는 방법을 배워야 할 때입니다.조경현 뉴욕대 교수
조경현 뉴욕대 교수는 16일(현지시각) 더밀크와 진행한 인터뷰에서 “본질적으로 AI 모델(LLM, 대규모 언어 모델) 사전 훈련 데이터에 대한 투명성이 사라졌다”며 이같이 말했다.
오픈AI GPT, 구글 제미나이 등 ‘파운데이션 모델(foundation model, 기초 모델)’로 불리는 외부 LLM을 도입, 활용할 경우 데이터 투명성 부족, 새로운 지식 습득 한계, 호환성 부족 때문에 어려움을 겪을 수 있다는 주장이다.
조 교수는 “많은 기업들이 오픈AI의 폐쇄형 모델을 API(애플리케이션 프로그래밍 인터페이스)로 연동해 사용하거나 메타의 오픈형 모델 라마를 미세조정(fine-tuning) 하는 방식으로 빅테크, 실리콘밸리 AI 기업에 의존하고 있다”며 “이런 방식으로는 데이터 편향성, 종속성이라는 문제를 해결할 수 없다”고 강조했다.
조 교수는 세계적인 AI 분야 석학 중 한 명으로 꼽힌다. 특히 자연어 처리 분야 최고 전문가다. 컴퓨터 과학계 노벨상으로 불리는 튜링상 수상자인 요슈아 벤지오 몬트리올대 교수와 함께 ‘신경망 기계 번역’을 고안한 논문을 썼고, 튜링상 수상자이자 딥러닝의 대부로 불리는 제프리 힌튼 토론토대 교수의 추천으로 2018년 ‘블룸버그 주목해야 할 50인’에 선정되기도 했다.
조 교수가 언어모델 자체 개발의 필요성을 강조한 주요 근거는 무엇일까. 자체 개발을 위해 필요한 건 무엇이며 어떤 성공 사례가 있을까. AI 모델 도입, 활용, 개발을 고려하는 기업들이 꼭 참고해야 할 조 교수의 조언을 정리했다.
근거① “데이터 투명성이 없으면 고칠 수 없다”
조 교수는 가장 먼저 훈련 데이터에 대한 문제의식이 중요하다고 강조했다. 현재 LLM이 만들어지는 방식을 보면 어떤 데이터를 사전 훈련 데이터로 사용하느냐에 따라 LLM이 생성하는 응답, 출력이 큰 영향을 받는다는 설명이다.
그는 “데이터가 곧 모델이며 데이터와 모델 간의 차이가 거의 없어지고 있다. 문제는 벤치마크(기준) 데이터 세트(Data set)를 만드는 곳이 미국, 유럽, 캐나다라는 점”이라고 지적했다.
데이터 세트 자체가 특정 인종, 국가, 교육 수준, 가치관에 편향된 데이터라는 것이다. 이런 경향성은 사람이 개입된 모델 정렬, 미세조정에도 동일하게 나타난다. 모델 정렬에 사용하는 ‘인간 가치관(human value)’ 역시 다양성이 결여된 탓이다.
더 큰 문제는 이 데이터가 불투명하다는 점이다. 오픈AI를 비롯한 주요 AI 기업들은 정확히 어떤 데이터 세트를 가지고 자사 파운데이션 모델을 훈련했는지 공개하지 않고 있다. 데이터 세트를 확인할 수 없기 때문에 의도하지 않은 결과, 출력이 나왔을 때 무엇이 잘못됐는지 알 수 없고, 결과적으로 문제를 수정하거나 고치는 게 거의 불가능하다는 게 조 교수의 주장이다.
AI 모델을 어떤 용도로, 누구를 위해 사용하느냐 등 다양한 시나리오에 맞춰 수정하거나 바꿀 수 있어야 하는데, 이런 가능성이 원천 차단되는 셈이다.
조 교수는 “특히 의료, 안전 등 생명과 직결된 산업, 분야에서 활용할 때 불투명한 데이터가 큰 문제를 일으킬 수 있다”며 “의료 분야에 활용하기 위한 AI 모델이 실제 병변 이미지는 무시하고, 이미지 속 의사의 체크 표시에만 의존한 사례도 있다”고 했다. 임상 데이터 오류 혹은 편향성이 완전히 잘못된 결과를 도출할 수 있는 셈이다.
근거② “과학 지식의 축적 속도를 따라잡기 어렵다”
두 번째 근거는 모델 유지 및 관리의 어려움에 있다. 외부 AI 모델을 가져다 쓸 경우 자체 업데이트가 불가능하고, 심지어 업데이트가 아예 안 되는 사례도 있다는 것이다. 조 교수는 “특히 과학 지식의 경우 계속되는 발견과 연구로 빠르게 지식이 축적된다. 이를 반영하려면 기초 모델의 지속적인 재훈련(재학습)과 업데이트가 필요하다”고 했다.
예컨대 GPT-3.5와 GPT-4 기반으로 작동하는 챗GPT에 “한국에서 다섯 번째로 큰 도시가 어디야”라고 물으면 잘못된 답변을 내놓는 반면 GPT-4o의 경우 정확한 답변을 내놓는 식이다.
외부 LLM 기반 제품의 지속 가능성을 고려하면 이전 버전 모델과의 ‘하위 호환성’을 유지하는 것도 중요한데, 이를 달성하는 것 역시 어려울 수 있다고 했다. 하위 호환성이란 이전 제품을 염두에 두고 만들어진 제품에서 새 제품이 별도의 수정 없이 그대로 사용될 수 있는지 여부를 뜻한다. 하위 호환성이 없으면 GPT-3 기반으로 만들어진 제품이 GPT-4에서 제대로 작동하지 않게 된다.
조 교수는 “구형 모델은 새로운 지식을 놓칠 가능성이 있고, 검색 증강 생성(RAG)으로도 이 문제는 해결할 수 없다. 지속적으로 재교육하고 업데이트하는 것만이 방법”이라며 “모델을 자체 개발할 경우 이런 문제가 해결된다”고 했다.
근거③ “라이선스 변경 문제… 불확실성·종속성 키워”
외부 모델 사용 시 라이선스 변경이라는 변수가 발생할 수 있다는 점도 단점으로 지적했다.
예컨대 구글 딥마인드가 개발한 단백질 구조 예측 AI 모델 ‘알파폴드’의 경우 2021년에 공개된 알파폴드2 모델과 2024년 공개된 알파폴드3 모델의 라이선스가 변경된 바 있다. 알파폴드2는 상업적 이용이 가능한데, 알파폴드3는 상업적 이용이 불가능해진 것이다.
특정 외부 AI 모델에만 의존하다가 라이선스 변경이 이뤄지면 관련 연구 개발 및 비즈니스 자체가 흔들릴 수 있는 셈이다.
조 교수는 “과도한 의존은 특정 기업에 대한 종속으로 이어진다”며 “누구나 사용하는 서비스의 경우 일반 사용자 레벨에서는 문제가 안 되지만, 전문 영역(domain)에는 전문 언어 모델이 필요하다. 신약 개발 등 어려운 문제는 일반 모델로 풀기 쉽지 않다”고 지적했다.
“쉽지 않다. 그러나…” 오픈 소스 도구 활용 제안
실제로 조 교수는 2023년부터 글로벌 제약사 로슈 전용 AI 모델을 구축한 경험이 있다. 생물학, 의학, 과학 기사, 보고서 등의 공개 데이터, 로슈 내부 독점 데이터, 실험 결과 데이터 등을 활용해 특정 영역 특화 모델로 학습을 진행한 것이다.
로슈가 다른 기업이 가지고 있지 않은 자체 데이터를 확보하고 있다는 점은 이 모델의 유용성을 크게 높이는 강점이 되고 있다.
조 교수는 “언어 모델을 직접 개발하는 게 결코 쉽다는 뜻은 아니다. 우리도 초기에 힘든 시간을 겪었다”면서도 “그럼에도 불구하고 오픈 소스, 오픈 플랫폼 생태계 덕분에 자체 개발은 충분히 가능한 일이 됐다”고 했다. 파이토치, 허깅페이스, 패스트API(FastAPI) 등 오픈 소스 도구, 플랫폼을 최대한 활용하라는 조언이다.
그는 이어 “모든 회사가 AI 모델을 만들 수 있는 능력을 갖춘 건 아니고, 그럴 필요도 없다. 그러나 이런 능력을 갖추는 것은 매우 중요하다”며 “도전을 하려면 조금이라도 일찍 시작하는 게 낫다. 모든 산업 분야가 그렇듯 AI 분야 역시 영원한 1등, 영원한 승자는 없다고 생각한다”고 했다.
조경현 뉴욕대 교수는 누구?
조경현 교수는 KAIST 전산학부를 2009년에 졸업한 뒤 핀란드 알토대에서 석사(2011)와 박사(2014) 학위를 취득하고 2015년부터 미국 뉴욕대 교수로 재직 중이다. 조 교수는 뉴욕대 교수로 임용된 지 4년 만인 지난 2019년 종신교수로 임명됐다.
조 교수는 기계 학습과 AI 응용 연구 분야의 석학으로 문장의 전후 맥락까지 파악해 번역할 수 있는 ʻ신경망 기계 번역 알고리즘ʼ을 개발, 세계적인 주목을 받았다. 현재 일반적으로 쓰이는 대다수 번역 엔진이 조 교수가 개발한 알고리즘을 적용하고 있다.
조 교수는 인공지능 번역 및 관련 산업계에 혁신을 가져온 공을 인정받아 ʻ2021 삼성호암상 공학상ʼ 수상자로 선정된 바 있으며 올해 한국 정부가 미국 뉴욕대에 설치 예정인 ‘글로벌 AI(인공지능) 프런티어랩’에 얀 르쿤 교수(메타 AI 연구소장)과 함께 공동 소장을 맡았다.