“서면 동의 받아라” 머스크도 X ‘크롤링’ 막았다… 내부선 자체 학습

reporter-profile
박원익 2023.09.08 15:35 PDT
“서면 동의 받아라” 머스크도 X ‘크롤링’ 막았다… 내부선 자체 학습
(출처 : Shutterstock/디자인: 김현지)

9월 29일부터 새 약관 적용... 사전 서면 동의 없으면 모두 금지
로봇 배제 표준 파일도 바꿔… 머스크 “AI 불법 학습”
경쟁사 견제 + 자체 AI 모델 학습 본격화 전망

소셜미디어 X(옛 트위터)가 자사 웹 데이터를 무단으로 긁어 추출하거나 수집하는 ‘스크래핑(scraping)’, ‘크롤링(crawling)’ 행위를 공식적으로 금지한다. 

오픈AI의 ‘GPT봇(GPTBot)’을 비롯한 크롤러(crawler, 콘텐트를 자동으로 긁어가는 장치) 차단 흐름에 동참한 것으로 풀이된다. 앞서 뉴욕타임스, 로이터, 닛케이(일본경제신문)를 비롯한 미디어와 아마존, 에어비앤비 등 주요 플랫폼 기업들이 데이터 수집 금지 조치를 취한 바 있다. 

X는 웹사이트에 공개한 새로운 이용약관에서 “X의 사전 서면 동의 없이는 어떤 형태로든, 목적으로든 X 서비스를 크롤링하거나 스크래핑하는 행위를 명시적으로 금지한다”고 밝혔다. 

새로운 이용약관은 오는 9월 29일부터 적용될 예정이다. X의 현재 이용약관은 18번째 버전으로 올해 5월 18일 업데이트됐다. 크롤링을 막기 위해 4개월 만에 변경이 이뤄진 것이다. 17번째 버전은 트위터 이사회가 일론 머스크 테슬라 CEO의 X 인수를 승인(2022년 4월)한 지 2개월 후인 2022년 6월 업데이트됐다.  

X 이용 약관 변경 내용. 노란색 밑줄 친 부분에 크롤링 관련 내용이 명시돼 있다. (출처 : X)

로봇 배제 표준 파일도 바꿔… 머스크 “AI 불법 학습”

X는 로봇이 사이트 및 웹페이지를 수집할 수 있도록 허용하거나 제한하는 국제 권고안인 ‘로봇 배제 표준(robots.txt)’을 따를 경우 크롤링을 허용했었다. 사전 동의가 있고, 국제 권고안에 따른다면 데이터를 수집할 수 있었던 것이다. 

한데 최근 몇 달 사이 상황이 바뀌었다. 테크크런치에 따르면 트위터는 지난 몇 달 동안 robots.txt 파일을 변경, 구글을 제외한 모든 크롤러 관련 지침을 삭제했다. 크롤러가 X 계정에서 사진, 동영상 등 미디어 데이터도 확인할 수 없도록 차단했다. 

오픈AI의 큰 성공으로 올해 들어 텍스트 데이터세트 기반으로 AI를 학습하거나 미세 조정하려는 시도가 급증했기 때문인 것으로 풀이된다. 구글의 경우 X에 올라온 게시물이 검색 결과로 노출될 필요가 있기 때문에 남겨뒀을 것이란 관측이다. 

약관 변경은 이런 정책을 더욱 강화한 것으로 강력한 사전 서면 동의를 요구하게 된다. 일론 머스크 CEO는 앞서 4월 “마이크로소프트가 X 데이터를 사용해 불법적으로 AI를 학습시켰다”며 마이크로소프트에 대한 소송 가능성을 언급하기도 했다.

더밀크의 시각: 경쟁사 견제 + 자체 AI 모델 학습 본격화 전망 

약관 변경에는 최근 더욱 치열해지고 있는 AI 모델 개발 경쟁이 영향을 미쳤다는 평가다. 

텍스트 및 이미지 데이터는 LLM(대규모 언어 모델)을 학습하거나 파운데이션(foundation, 기초) 모델 미세조정(fine-tuning), AI 애플리케이션 개발에 필수적인 중요 자원이 되고 있다. 메타가 트위터와 비슷한 소셜미디어 스레드(Threads)를 새롭게 론칭하고, 숏폼 동영상 플랫폼 틱톡이 텍스트 공유 기능을 선보인 것도 비슷한 맥락이다. 

AI 모델의 강력한 성능 및 상업화 가능성을 확인한 기술 기업들이 소셜미디어를 데이터 원천으로 활용하려고 힘을 싣는 동시에 경쟁사 견제에 나섰다는 관측이다. X는 이번 약관 변경에 앞서 사용자 개인 정보 정책을 업데이트, 공개된 정보는 자사 AI 모델 훈련에 활용한다고 명시하기도 했다.   

저작권 보호 관점의 접근도 있다. AI 모델 학습에 데이터(콘텐트)를 무단 활용, 저작권을 침해했음에도 해당 기업이 정당한 비용을 지불하지 않는다는 주장이다.  이미지 및 동영상을 유료로 제공하는 미국 기업 게티이미지가 스테빌리티AI를 고소한 사례가 대표적이다.

회원가입 후 뷰스레터를
주 3회 무료로 받아보세요!

단순 뉴스 서비스가 아닌 세상과 산업의 종합적인 관점(Viewpoints)을 전달드립니다. 뷰스레터는 주 3회(월, 수, 금) 보내드립니다.