Meta의 AI 모델이 해리 포터 책의 상당 부분을 기억하다

도시와 문화

Meta의 AI 모델이 해리 포터 책의 상당 부분을 기억하다

myinfo3482-1 2025. 6. 24. 22:35

출처:

404 Media, “Meta’s AI Model ‘Memorized’ Huge Chunks of Books, Including ‘Harry Potter’ and ‘1984’,” June 24, 2025 (https://www.404media.co)
Ars Technica, “Study: Meta AI model can reproduce almost half of Harry Potter book,” June 20, 2025 (https://arstechnica.com)
New Scientist, “Meta’s AI memorised books verbatim – that could cost it billions,” June 11, 2025 (https://www.newscientist.com)
The Indian Express, “Meta’s Llama 3.1 model ‘memorised’ 42 per cent of Harry Potter book, new study finds,” June 24, 2025 (https://indianexpress.com)

Photo by Madalyn Cox / Unsplash 재인용: https://www.404media.co/meta-ai-model-memorized-harry-potter-books/?mc_cid=7bfd71b421&mc_eid=1e9cb4ea70

번역 및 주요 내용 요약

연구진은 Meta의 AI 모델 Llama 3.1 70B가 J.K. 롤링의 해리 포터와 마법사의 돌 텍스트의 42퍼센트를 기억해 재현할 수 있다고 밝혔다. 이는 AI가 학습을 넘어 텍스트를 저장했을 가능성을 나타내며, 저작권 침해 논란을 낳는다.

연구 내용

연구진(스탠퍼드, 코넬, 웨스트버지니아 대학)은 Llama 3.1 70B 등 5개 AI 모델이 Books3 데이터셋(약 20만 권, 많은 책이 저작권 보호 중)을 얼마나 재현하는지 조사했다.
방법: 책의 50토큰 텍스트를 입력해 이어지는 부분의 재현 정확도를 측정.
결과: Llama 3.1 70B는 해리 포터와 마법사의 돌의 42퍼센트를 재현, 50토큰 구절의 50퍼센트 이상을 정확히 복원했다.
비교: Llama 1 65B는 4.4퍼센트만 기억, Llama 3.1은 호빗과 1984는 많이 기억했으나 Sandman Slim은 0.13퍼센트만 기억했다.
결론: 모델이 인기 책의 텍스트를 대량 저장했을 가능성이 크다.

저작권 문제

Meta는 Books3 데이터셋(불법 복제 포함)을 사용해 Llama를 훈련, 이는 Kadrey v. Meta 소송의 핵심이다.
연구는 Llama 3.1이 텍스트를 저장했을 가능성을 보여, 저작권 침해 주장을 강화한다.
법적 리스크: 모델이 불법 복제본으로 간주되면 배포가 제한되거나 모델 파괴 명령이 내려질 수 있다.
Meta는 미국의 공정 사용(fair use)을 주장하나, 영국 등에서는 공정 거래(fair dealing) 기준이 엄격하다.
비용: Books3의 3퍼센트만 침해로 판결받아도 Meta는 약 10억 달러를 배상할 수 있다.

원인 분석

인기 책(해리 포터 등)은 팬 포럼, 리뷰 등으로 데이터셋에 과다 포함되었을 가능성.
연구진은 전체 텍스트가 훈련 데이터에 포함되었을 가능성을 제기, 단순 인용으로는 42퍼센트 재현이 어렵다고 본다.

소송 영향

원고(Richard Kadrey 등)에게는 침해 증거로 유리, Meta에게는 덜 인기 책의 낮은 기억률이 집단소송 인증을 어렵게 할 수 있다.

시사점 (약간 코믹한 톤)

학습이 아니라 복사 붙여넣기?
AI가 책을 학습했다고 하지만, 42퍼센트를 줄줄 읊는 건 복사기 수준이다. Meta는 “우린 영감을 얻었을 뿐”이라 주장하지만, 법원은 “그건 복제다”라고 볼 가능성이 크다.
인기 책만 골라 기억
해리 포터와 1984는 외우고, Sandman Slim은 까먹는 Llama. 베스트셀러만 골라 먹는 문학 편식쟁이처럼, 인기 콘텐츠가 데이터에 더 많이 들어간 게 틀림없다.
AI 학습의 경계는 어디?
이 사건은 AI가 학습과 복제의 경계에서 어디까지 허용되는지 묻는다. AI 회사들은 창의적이라고 주장하지만, 법원이 “그건 복사야”라고 판결하면 업계가 흔들릴 수 있다.

결론

Meta의 Llama 3.1 70B가 해리 포터와 마법사의 돌의 42퍼센트를 기억한 것은 AI가 텍스트를 저장했을 가능성을 보여준다. 이는 Kadrey v. Meta 소송에서 저작권 침해 증거로 작용할 수 있으며, AI 훈련 데이터의 투명성과 법적 문제를 둘러싼 논쟁을 키운다. AI가 혁신을 위해 데이터를 활용하려면, 저작권이라는 법적 장벽을 먼저 넘어야 한다.