량원펑 - 더밀크

오픈AI 저격수는 중국에 있었다... 딥시크 창업자 량원펑은 누구?

“딥시크(DeepSeek)의 ‘R1-제로(Zero)’는 자연어로 사람처럼 추론(reasoning)하는 기술을 보여줬습니다. 강화학습(Reinforcement Learning, RL)만으로 만들어낸 결과입니다.” 아라빈드 스리니바스 퍼플렉시티 CEO는 29일(현지시각) 중국 스타트업 딥시크가 개발한 AI 모델 R1의 논문 일부를 공개하며 이같이 말했다. 딥시크가 달성한 성과가 놀랍다며 회사를 치켜세운 것이다. 그가 공유한 논문에는 AI 모델이 수학 공식을 풀어내는 과정에서 사람처럼 스스로 방법을 알아내고, 이를 ‘깨달음의 순간(aha moment)’라고 표현하는 시연 장면이 등장한다. 논문에 따르면 딥시크는 사람이 데이터를 생성, 모델 개선에 도움을 주는 STF(Supervised Fine-Tuning, 지도 미세 조정) 방식이 아니라 별도의 지침 없이 강화학습만으로 이 결과를 얻었다. 마치 알파고가 별도의 지침 없이 바둑 두는 방법을 찾아낸 것처럼 기계 스스로 수학 문제 해결법을 찾아낸 것이다. 실리콘밸리 벤처캐피털 a16z의 마크 앤드리슨은 R1에 대해 “지금까지 내가 본 가장 놀랍고 인상적인 혁신 중 하나였다”고 평가하기도 했다. 딥시크는 어떻게 실리콘밸리를 충격과 흥분에 빠뜨릴 수 있었을까? 딥시크 설립자의 목표, 비전은 무엇일까?

박원익 2025.01.29 17:10 PDT