플랫폼-콘텐츠 역학관계 바뀔까... LLM 무단 학습에 제동
생성AI 기업, 암묵적 규칙 '로봇(robots.txt)' 깼다
오픈AI∙앤트로픽∙퍼블렉시티 데이터 무차별 수집 사례 줄줄이
레딧∙아마존 “돈 내고 써라”…생성AI 기반 스크랩 방지 봇 서비스도 등장
다급해진 미디어…작성자 정보 추가∙뉴스레터 연합 시도도
소셜미디어(SNS), 뉴스 미디어 등이 사용자 트래픽 분산으로 수익성이 악화하는 가운데 이제는 생성AI 모델의 무단 데이터 수집이라는 암초를 만났다. 데이터를 수집하는 크롤링은 이전에도 있었지만 생성AI 모델은 기존 스크랩 규칙을 우회한다는 점에서 우려를 사고 있다.
대부분의 사이트는 봇이 콘텐츠를 읽고 복사할 수 있는지에 대한 지침이 포함된 '로봇(robots.txt)'이라는 문서 파일을 도메인에 넣는다. 법적 구속력은 없지만, 프로그램 개발자들이 90년대에 표준화한 이래로 대부분의 스크랩 프로그램은 이를 지켜왔다.
로봇이 존중하기를 바라는 "침입 금지" 표지판과 같다. 검색 엔진이 사이트를 스케이프한 다음 사람들을 컨텐츠로 안내하는 데 사용되기도 했다. 그러나 생성AI모델은 이 룰을 깨고 ‘공개적으로 사용 가능한’ 웹 데이터를 수집하는 추세다.