도시와 문화
Meta의 AI 모델이 해리 포터 책의 상당 부분을 기억하다
myinfo3482-1
2025. 6. 24. 22:35
출처:
- 404 Media, “Meta’s AI Model ‘Memorized’ Huge Chunks of Books, Including ‘Harry Potter’ and ‘1984’,” June 24, 2025 (https://www.404media.co)
- Ars Technica, “Study: Meta AI model can reproduce almost half of Harry Potter book,” June 20, 2025 (https://arstechnica.com)
- New Scientist, “Meta’s AI memorised books verbatim – that could cost it billions,” June 11, 2025 (https://www.newscientist.com)
- The Indian Express, “Meta’s Llama 3.1 model ‘memorised’ 42 per cent of Harry Potter book, new study finds,” June 24, 2025 (https://indianexpress.com)
번역 및 주요 내용 요약
연구진은 Meta의 AI 모델 Llama 3.1 70B가 J.K. 롤링의 해리 포터와 마법사의 돌 텍스트의 42퍼센트를 기억해 재현할 수 있다고 밝혔다. 이는 AI가 학습을 넘어 텍스트를 저장했을 가능성을 나타내며, 저작권 침해 논란을 낳는다.
연구 내용
- 연구진(스탠퍼드, 코넬, 웨스트버지니아 대학)은 Llama 3.1 70B 등 5개 AI 모델이 Books3 데이터셋(약 20만 권, 많은 책이 저작권 보호 중)을 얼마나 재현하는지 조사했다.
- 방법: 책의 50토큰 텍스트를 입력해 이어지는 부분의 재현 정확도를 측정.
- 결과: Llama 3.1 70B는 해리 포터와 마법사의 돌의 42퍼센트를 재현, 50토큰 구절의 50퍼센트 이상을 정확히 복원했다.
- 비교: Llama 1 65B는 4.4퍼센트만 기억, Llama 3.1은 호빗과 1984는 많이 기억했으나 Sandman Slim은 0.13퍼센트만 기억했다.
- 결론: 모델이 인기 책의 텍스트를 대량 저장했을 가능성이 크다.
저작권 문제
- Meta는 Books3 데이터셋(불법 복제 포함)을 사용해 Llama를 훈련, 이는 Kadrey v. Meta 소송의 핵심이다.
- 연구는 Llama 3.1이 텍스트를 저장했을 가능성을 보여, 저작권 침해 주장을 강화한다.
- 법적 리스크: 모델이 불법 복제본으로 간주되면 배포가 제한되거나 모델 파괴 명령이 내려질 수 있다.
- Meta는 미국의 공정 사용(fair use)을 주장하나, 영국 등에서는 공정 거래(fair dealing) 기준이 엄격하다.
- 비용: Books3의 3퍼센트만 침해로 판결받아도 Meta는 약 10억 달러를 배상할 수 있다.
원인 분석
- 인기 책(해리 포터 등)은 팬 포럼, 리뷰 등으로 데이터셋에 과다 포함되었을 가능성.
- 연구진은 전체 텍스트가 훈련 데이터에 포함되었을 가능성을 제기, 단순 인용으로는 42퍼센트 재현이 어렵다고 본다.
소송 영향
- 원고(Richard Kadrey 등)에게는 침해 증거로 유리, Meta에게는 덜 인기 책의 낮은 기억률이 집단소송 인증을 어렵게 할 수 있다.
시사점 (약간 코믹한 톤)
- Llama, 해리 포터 퀴즈 챔피언?
Llama 3.1은 해리 포터를 거의 외울 정도로 기억했다. 하지만 이건 퀴즈 대회 우승이 아니라 저작권 문제로 법정에 서게 될지도 모르는 상황이다. - 학습이 아니라 복사 붙여넣기?
AI가 책을 학습했다고 하지만, 42퍼센트를 줄줄 읊는 건 복사기 수준이다. Meta는 “우린 영감을 얻었을 뿐”이라 주장하지만, 법원은 “그건 복제다”라고 볼 가능성이 크다. - 인기 책만 골라 기억
해리 포터와 1984는 외우고, Sandman Slim은 까먹는 Llama. 베스트셀러만 골라 먹는 문학 편식쟁이처럼, 인기 콘텐츠가 데이터에 더 많이 들어간 게 틀림없다. - Meta, 저작권 소송의 덫에
10억 달러 벌금 얘기가 나오며 Meta는 저작권 소송의 악몽을 꾸고 있다. Llama가 “난 무고해!”라고 외쳐도, 법정은 귀를 막을지도 모른다. - AI 학습의 경계는 어디?
이 사건은 AI가 학습과 복제의 경계에서 어디까지 허용되는지 묻는다. AI 회사들은 창의적이라고 주장하지만, 법원이 “그건 복사야”라고 판결하면 업계가 흔들릴 수 있다.
결론
Meta의 Llama 3.1 70B가 해리 포터와 마법사의 돌의 42퍼센트를 기억한 것은 AI가 텍스트를 저장했을 가능성을 보여준다. 이는 Kadrey v. Meta 소송에서 저작권 침해 증거로 작용할 수 있으며, AI 훈련 데이터의 투명성과 법적 문제를 둘러싼 논쟁을 키운다. AI가 혁신을 위해 데이터를 활용하려면, 저작권이라는 법적 장벽을 먼저 넘어야 한다.