AI는 거대한 표절 기계인가 — 571표 받은 도발에 우리는 답할 수 있을까

“AI는 결국 거대한 표절 기계다.” 최근 한 에세이가 571표를 받으며 또다시 논쟁에 불을 붙였습니다. 챗GPT가 세상에 나온 지 3년이 넘었지만, “이게 정말 창작이냐, 아니면 정교한 도둑질이냐"는 질문은 여전히 답을 찾지 못하고 있습니다. 오늘은 이 도발적인 비판을 정면으로 마주해보려고 합니다.

“허락받지 않았다"는 단순하고 강력한 논점

이 주장의 핵심은 의외로 단순합니다. AI 모델을 학습시키는 데 사용된 수십억 개의 텍스트, 이미지, 코드. 그중에 작가, 화가, 개발자에게 명시적으로 허락을 받은 것이 얼마나 되느냐는 질문입니다.

답은 거의 없다는 것입니다. 인터넷에 공개되어 있다는 이유만으로 크롤링되고, 학습되고, 결과물의 재료가 되었습니다. 비평가들은 이걸 “산업화된 무단 사용"이라고 부릅니다. 한 명이 한 권의 책을 베끼면 표절이지만, 기업이 수백만 권의 책을 통째로 학습 데이터로 빨아들이면 “혁신"이 된다는 것이죠.

테크 윤리 채널 TechEthics가 올린 영상 제목이 이 정서를 정확히 짚습니다. “아무도 기소할 수 없는 도둑질”. 너무 크고, 너무 분산되어 있고, 너무 복잡해서 법이 따라잡지 못한다는 것입니다.

“인간도 똑같이 배운다"는 반론의 함정

AI 옹호 진영의 단골 반론은 이렇습니다. “인간 화가도 다른 화가의 그림을 보며 배우잖아요? 인간 작가도 수천 권의 책을 읽고 글을 쓰지 않나요?”

언뜻 그럴듯하지만, 비판자들은 여기서 결정적 차이를 지적합니다. 규모와 속도, 그리고 의도입니다.

인간이 평생 읽을 수 있는 책은 많아야 수천 권입니다. 모델은 며칠 만에 수억 권을 “읽습니다”. 인간의 학습은 망각과 해석을 거쳐 변형되지만, 모델은 학습 데이터의 통계적 패턴을 거의 손실 없이 복원할 수 있습니다. 실제로 특정 프롬프트를 넣으면 학습 데이터에 있던 문장이나 이미지가 거의 그대로 튀어나오는 사례가 수도 없이 보고되었습니다.

게다가 인간 학습자는 영리 목적으로 원작자의 시장을 직접 잠식하지 않습니다. 반면 AI는 원작자가 활동하는 바로 그 시장에서, 원작자보다 싸게, 빠르게, 무제한으로 결과물을 찍어냅니다.

그렇다면 “변환적 사용"은 변명이 될까

미국 저작권법에는 “변환적 사용(transformative use)“이라는 개념이 있습니다. 원작을 충분히 새롭게 바꿨다면 공정 이용으로 인정한다는 것이죠. AI 기업들은 학습이 바로 이 변환적 사용에 해당한다고 주장합니다.

하지만 여기에도 빈틈이 있습니다. 변환적 사용은 원래 비평, 패러디, 연구 같은 특정 목적을 전제로 한 개념입니다. 학습 데이터 전체를 빨아들여 상업용 제품을 만드는 행위가 이 정의에 깔끔하게 들어맞는지는 법원조차 아직 결론을 내리지 못했습니다.

뉴욕타임스, 게티이미지, 다수의 작가 단체가 진행 중인 소송들이 향후 몇 년간 이 질문에 대한 판례를 만들어갈 것입니다. 그때까지 우리는 사실상 법적 회색지대에서 매일 이 기술을 쓰고 있는 셈입니다.

진짜 불편한 질문은 따로 있습니다

이 논쟁에서 가장 흥미로운 건, 결국 “AI는 표절이냐 아니냐"가 아니라 “우리는 이 거래에 동의한 적이 있느냐”는 질문이라는 점입니다.

블로그 글을 쓴 사람, 깃허브에 코드를 올린 개발자, 인스타그램에 그림을 올린 작가. 이들이 본인의 작업물이 수십억 달러 가치의 AI 모델을 훈련시키는 재료가 될 거라 예상했을까요? 아마 아닐 겁니다. “공개"와 “양도"는 다른 개념인데, AI 산업은 이 둘을 슬그머니 같은 것으로 취급해왔습니다.

오픈AI, 구글, 메타, 앤트로픽 모두 이제는 학습 데이터 출처를 점점 더 모호하게 공개합니다. 투명성이 약해질수록 비판은 거세지고, 비판이 거세질수록 더 닫히는 악순환이 진행 중입니다.

마무리: 답하지 못하면 신뢰는 무너집니다

AI가 표절이냐 아니냐는 결국 법정과 사회가 결정할 문제입니다. 하지만 그 전에 업계가 스스로에게 물어야 할 질문이 있습니다. “우리가 만든 결과물의 재료를 제공한 사람들에게, 우리는 무엇을 돌려주고 있는가?"

이 질문에 설득력 있는 답을 내놓지 못하는 한, “AI는 거대한 표절"이라는 비판은 계속 따라다닐 겁니다. 여러분은 어떻게 보시나요. 인간의 학습과 모델의 학습 사이에 본질적인 차이가 있다고 생각하시나요, 아니면 그저 규모의 문제일 뿐일까요?

AI는 거대한 표절 기계인가 — 571표 받은 도발에 우리는 답할 수 있을까

“허락받지 않았다"는 단순하고 강력한 논점

“인간도 똑같이 배운다"는 반론의 함정

그렇다면 “변환적 사용"은 변명이 될까

진짜 불편한 질문은 따로 있습니다

마무리: 답하지 못하면 신뢰는 무너집니다

댓글

관련 글

앤트로픽 공동창업자가 교황과 나란히 선 날 — AI 회칙이 던지는 영혼의 질문

바이브 코딩으로 노션 클론은 쏟아지는데 왜 포토샵은 없을까

살아있는 뉴런으로 만드는 컴퓨터, 우리는 정말 준비됐을까