인터넷아카이브 3분 소요

지역 언론 340곳이 인터넷 아카이브를 막았다 — 저널리즘은 누가 보존하는가

웹페이지 하나가 사라지는 데는 얼마나 걸릴까요. 평균 수명이 단 100일이라는 연구가 있을 정도로, 인터넷의 기억력은 우리 생각보다 훨씬 짧습니다. 그런데 그 짧은 기억마저도 점점 더 보존하기 어려워지고 있다는 소식이 들려옵니다. 미국 전역 340개 이상의 지역 언론사가 인터넷 아카이브(Internet Archive)의 접근을 차단했다는 보고가 나오면서, 디지털 시대 저널리즘 보존이라는 묵직한 질문이 다시 수면 위로 떠올랐습니다.

무슨 일이 벌어진 걸까요

인터넷 아카이브는 1996년 브루스터 케일(Brewster Kahle)이 설립한 비영리 디지털 도서관입니다. 핵심 서비스인 웨이백 머신(Wayback Machine)은 지난 30년 가까이 웹페이지의 스냅샷을 저장해왔습니다. 지금까지 보관된 페이지만 9,160억 개가 넘습니다.

그런데 최근 보도에 따르면, 미국의 주요 지역 신문사 체인을 포함해 약 340개 이상의 뉴스 사이트가 자사의 robots.txt 파일에 인터넷 아카이브의 크롤러인 ia_archiver를 차단하는 항목을 추가했습니다. 이는 단순히 한두 곳의 문제가 아닙니다. 가넷(Gannett), 트리뷴 퍼블리싱(Tribune Publishing), 맥클라치(McClatchy) 같은 거대 미디어 그룹 산하의 지역지들이 대거 포함되어 있다는 점에서 구조적인 흐름으로 읽힙니다.

왜 막는 걸까요

언론사들이 아카이브를 차단하는 이유는 복합적입니다. 가장 큰 명분은 AI 학습 데이터 차단입니다. 자사 기사가 동의 없이 LLM(거대언어모델) 학습에 쓰이는 것을 막겠다는 거죠. 인터넷 아카이브 데이터셋이 다양한 AI 모델 학습에 활용되어 왔다는 점을 고려하면 이해는 갑니다.

두 번째는 저작권 통제입니다. 자사 기사가 다른 곳에서 무료로 열람되는 것을 원치 않는다는 입장입니다. 특히 페이월(paywall)을 운영하는 곳들은 아카이브가 일종의 “우회로"가 된다고 봅니다.

세 번째는 오보 수정의 어려움입니다. 한 번 출고한 기사를 수정하거나 삭제해도, 웨이백 머신에는 원본이 그대로 남아있죠. 명예훼손 소송 위험이나 평판 관리 측면에서 부담스럽다는 겁니다.

그런데 문제는

언론사 입장도 이해가 갑니다. 하지만 동시에 잃는 것도 큽니다.

지역 언론은 그 지역의 1차 사료(史料)입니다. 시의회 보도, 사건 사고, 지역 경제 동향, 작은 부고까지 — 이런 기록들은 어디에도 대체될 수 없습니다. 학자, 기자, 시민단체, 법률가, 가족사를 찾는 평범한 시민까지 모두가 이 아카이브에 의존해왔습니다.

게다가 지역 언론은 이미 위기입니다. 미국에서는 2005년 이후 약 2,900개 신문이 폐간됐고, 매주 평균 2개씩 사라지고 있습니다. “뉴스 사막(news desert)“이라는 용어가 생겼을 정도죠. 그렇게 사라진 신문사의 웹사이트는 도메인이 만료되면 함께 증발합니다. 이때 웨이백 머신이 없다면, 그 지역의 수십 년 기록이 통째로 날아가는 셈입니다.

더 큰 그림

최근 유튜브에서도 비슷한 우려가 잇따르고 있습니다. “Personal Wayback Machine: How to Archive the Web Before It Disappears” 같은 영상이 5월 중순 올라왔고, “They’re Trying to ERASE the Internet"이라는 다소 자극적인 제목의 콘텐츠도 등장했습니다. 조회수는 많지 않지만, “보존은 이제 개인의 책임이 되어가고 있다”는 인식이 확산되고 있다는 신호로 읽힙니다.

인터넷 아카이브 자체도 흔들리고 있습니다. 2024년 미국 출판사들과의 저작권 소송에서 패소했고, 같은 해 대규모 DDoS 공격과 데이터 유출 사고를 겪었습니다. “인터넷의 도서관"이라는 단일 기관에 모든 디지털 기억을 의존하는 구조 자체가 얼마나 취약한지를 보여준 사건들입니다.

그래서 누가 책임져야 할까요

결국 질문은 이겁니다. 디지털 시대의 공공 기록은 누가 보존해야 할까요.

언론사가 자사 콘텐츠에 대한 권리를 행사하는 것은 정당합니다. 하지만 보도된 뉴스는 단순한 사적 콘텐츠가 아니라 공적 기록의 성격도 가집니다. 그래서 일부 국가들은 국립도서관 차원의 웹 아카이빙을 의무화하고 있습니다. 영국 국립도서관, 프랑스 국립도서관, 한국의 국립중앙도서관(OASIS 프로젝트) 등이 자국 웹사이트를 체계적으로 수집하고 있죠.

미국에는 의회도서관(Library of Congress)이 비슷한 사업을 하지만, 범위가 제한적입니다. 그 공백을 지난 30년간 비영리 단체 하나가 메워왔다는 사실 자체가 어쩌면 비정상이었는지도 모르겠습니다.

마무리

오늘 우리가 읽는 기사는 내일 아무도 볼 수 없는 기록이 될 수 있습니다. 지역 신문사들이 아카이브를 막는 결정은 그들 나름의 합리적 선택일지 모르지만, 그 합리성의 총합이 사회 전체의 기억을 지워버리고 있다는 점은 분명합니다.

여러분이 지난 10년간 읽었던 지역 뉴스 중에, 지금 다시 찾을 수 있는 것이 몇 개나 될까요. 그리고 그 보존을 위해 우리는 누구에게, 어떤 의무를 부여해야 할까요. 이건 기술의 문제가 아니라 결국 사회적 합의의 문제입니다.

인터넷아카이브 저널리즘 디지털보존 지역언론 웨이백머신

댓글

    댓글을 불러오는 중...