챗GPT 대용량 언어 모델(LLM)의 저작권 침해

챗GPT가 학습한 뉴욕타임즈의 신문 기사를 그대로 내뱉는 경우  

그 콘텐츠 생성은 '변형(transformation)'일까 단순 '재현(reproduction)'일까?


이번 소송의 핵심 쟁점은 크게 두 가지다.

첫째, 챗GPT 같은 LLM의 학습 과정을 ’공정 이용’으로 볼 수 있을 것인가.

둘째, 챗GPT가 가끔 특정 저작물을 그대로 되뇌이는 ‘역류(Regurgitation)’ 현상을 어떻게 볼 것인가.


두 가지 쟁점 중 특히 중요한 부분이 '역류'다. 

역류란 생성 AI가 학습한 콘텐츠를 학습한 그대로 답변하는 것을 말한다. 


챗GPT의 기반이 된 GPT는 '사전 훈련된 생성 변환기(Generative Pre-trained Transformer)'의 약어다. 

이 부분이 챗GPT 같은 LLM과 일반적인 검색 엔진이 다른 점이라는 게 생성 AI 업체들의 주장이다. 검색엔진들은 검색어에 가장 적합한 문구를 찾은 뒤 그대로 보여준다. 반면 생성 AI는 방대한 자료를 학습한 뒤 상황에 적합한 답변을 내놓는다는 의미다. 인터넷에 있는 수 백만건의 콘텐츠를 학습한 뒤 새로운 지식을 생성해낸다는 것이다. 굳이 비유하자면, 도서관에 있는 무수히 많은 책을 읽고 지식을 습득하는 것과 비슷한 과정이란 주장인 셈이다. 그렇기 때문에 학습 과정은 이런 결과 도출을 위한 '공정 이용'이라는 게 생성 AI 업체의 주장이다. 


공정 이용이란 저작권자의 허가를 구하지 않고 저작물을 제한적으로 이용할 수 있도록 허용하는 미국 저작권법상의 개념이다. 학술 연구나 평론 등이 공정 이용의 대표적인 사례다.


생성AI 업체와 소송에서 승리하기 위해선 이런 논리를 무너뜨려야만 한다. ‘저작권 침해’를 주장하는 쪽에 입증 책임이 있기 때문이다. 다시 말해, 구체적인 저작권 침해 사례를 적시해야 하는 데, 그게 말처럼 쉽지 않다.


뉴욕타임즈와 오픈AI 간의 공방은 요즘 가장 뜨거운 생성 AI 기술의 기본 작동 원리를 건드리고 있다는 점에서 많은 관심을 끌고 있다. 챗GPT 같은 생성 AI의 콘텐츠 생산 행위를 어떻게 볼 것인지에 대한 근본적인 질문을 담고 있기 때문이다.


그런 만큼 이번 공방을 바라보는 관점이 확연하게 달라진다. AI 기술이나 산업 쪽을 중요하게 생각하는 사람은 뉴욕타임즈가 혁신을 말살하려 하고 있다고 주장한다. 반면 콘텐츠를 좀 더 중요하게 간주하는 쪽에선 '현명한 문제 제기'라는 입장을 보이고 있다.