플랫폼-콘텐츠 역학관계 바뀔까... LLM 무단 학습에 제동

reporter-profile
Sejin Kim 2024.07.10 02:33 PDT
플랫폼-콘텐츠 역학관계 바뀔까... LLM 무단 학습에 제동
The crawling bots have basic, agile designs with a few limbs and sensors, while the defender bots are robust with clear, round energy shields. (출처 : DALLE, 김세진)

생성AI 기업, 암묵적 규칙 '로봇(robots.txt)' 깼다
오픈AI∙앤트로픽∙퍼블렉시티 데이터 무차별 수집 사례 줄줄이
레딧∙아마존 “돈 내고 써라”…생성AI 기반 스크랩 방지 봇 서비스도 등장
다급해진 미디어…작성자 정보 추가∙뉴스레터 연합 시도도

소셜미디어(SNS), 뉴스 미디어 등이 사용자 트래픽 분산으로 수익성이 악화하는 가운데 이제는 생성AI 모델의 무단 데이터 수집이라는 암초를 만났다. 데이터를 수집하는 크롤링은 이전에도 있었지만 생성AI 모델은 기존 스크랩 규칙을 우회한다는 점에서 우려를 사고 있다.

대부분의 사이트는 봇이 콘텐츠를 읽고 복사할 수 있는지에 대한 지침이 포함된 '로봇(robots.txt)'이라는 문서 파일을 도메인에 넣는다. 법적 구속력은 없지만, 프로그램 개발자들이 90년대에 표준화한 이래로 대부분의 스크랩 프로그램은 이를 지켜왔다.

로봇이 존중하기를 바라는 "침입 금지" 표지판과 같다. 검색 엔진이 사이트를 스케이프한 다음 사람들을 컨텐츠로 안내하는 데 사용되기도 했다. 그러나 생성AI모델은 이 룰을 깨고 ‘공개적으로 사용 가능한’ 웹 데이터를 수집하는 추세다.

회원가입 후 뷰스레터를
주 3회 무료로 받아보세요!

단순 뉴스 서비스가 아닌 세상과 산업의 종합적인 관점(Viewpoints)을 전달드립니다. 뷰스레터는 주 3회(월, 수, 금) 보내드립니다.