arXiv가 던진 경고장: AI가 지어낸 인용을 더는 봐주지 않겠다

논문을 읽다가 인용된 참고문헌을 찾아갔는데, 그런 논문이 세상에 존재하지 않는다면 어떨까요. 황당하게 들리지만, ChatGPT 시대 이후 학계에서 실제로 벌어지고 있는 일입니다. 결국 세계 최대 프리프린트 서버인 arXiv가 칼을 빼들었습니다. AI가 지어낸 가짜 인용을 포함한 논문을 올리면 최대 1년간 게재 금지를 먹이겠다는 겁니다.

arXiv가 이 정도까지 강수를 둔 이유

arXiv는 물리학, 컴퓨터과학, 수학 분야 연구자들이 정식 저널 심사 전에 논문을 먼저 공개하는 핵심 플랫폼입니다. 매달 올라오는 논문이 2만 편을 훌쩍 넘죠. 문제는 2023년 이후 LLM을 활용해 작성된 논문이 폭증하면서, 본문에 등장하는 참고문헌 중 일부가 아예 존재하지 않거나, 저자·연도·저널명이 뒤죽박죽 섞인 사례가 눈에 띄게 늘었다는 점입니다.

이걸 학계에서는 ‘환각(hallucination) 인용’이라고 부릅니다. LLM이 그럴듯해 보이는 문장을 만들어내듯, 그럴듯해 보이는 참고문헌도 만들어낸다는 거죠. “Smith et al. 2021, Journal of XYZ"처럼 형식은 완벽한데, 검색해 보면 그런 논문도 그런 저널 호도 존재하지 않는 식입니다.

1년 게재 금지가 의미하는 것

arXiv가 그동안 취해온 입장은 비교적 느슨했습니다. AI 사용을 금지하지 않았고, 다만 저자가 책임지라는 정도였죠. 그런데 이번에는 톤이 확연히 달라졌습니다. 환각 인용이 발견된 논문의 저자에게는 최대 1년간 신규 제출을 차단한다는 방침입니다.

프리프린트 서버는 동료 심사를 거치지 않기 때문에 속도가 생명입니다. 1년 동안 arXiv에 논문을 못 올린다는 건, 연구자 입장에서는 사실상 최신 연구 흐름에서 1년간 사라지는 것과 비슷합니다. 단순한 경고가 아니라 커리어에 실질적 타격을 주는 수준의 제재죠.

검증의 책임은 결국 인간에게

이번 조치의 핵심 메시지는 명확합니다. AI를 쓰는 건 좋다, 다만 인용 하나하나를 직접 확인하지 않은 채 그대로 붙여 넣는 건 더 이상 봐주지 않겠다는 겁니다. 사실 인용 검증은 연구자의 가장 기본적인 책무인데, AI 생성 텍스트의 편리함이 이 기본기를 흔들고 있었던 셈입니다.

이미 의학 저널에서도 비슷한 사례가 보고된 바 있습니다. 한 연구는 GPT가 생성한 의학 논문 초록의 참고문헌 중 약 40~60%가 부정확하거나 존재하지 않는다는 결과를 내놓기도 했죠. arXiv의 이번 조치는 이런 흐름에 대한 학술 인프라 차원의 첫 대응으로 볼 수 있습니다.

다른 출판 플랫폼도 따라갈까

arXiv가 움직였다는 건 다른 곳도 곧 비슷한 정책을 들고 나올 가능성이 높다는 신호입니다. Nature, Science 같은 톱저널은 이미 AI 사용 공개를 의무화했고, 일부 학회는 AI 생성 논문 자체를 거부하기 시작했습니다. 하지만 ‘존재하지 않는 인용’이라는 구체적 행위를 콕 집어 제재하는 건 arXiv가 사실상 첫 사례입니다.

흥미로운 건 이 정책의 집행 방식입니다. arXiv는 수만 편의 논문을 일일이 사람이 검증할 수 없으니, 결국 자동화된 인용 검증 시스템이 필요해질 겁니다. AI가 만든 문제를 AI로 잡아내는, 묘한 풍경이 펼쳐지는 거죠.

새 경계선은 어디일까

AI를 연구에 활용하는 것 자체를 막을 수는 없습니다. 이미 문헌 정리, 초안 작성, 코드 디버깅 등 거의 모든 단계에서 LLM이 쓰이고 있으니까요. 그래서 arXiv가 그은 선은 꽤 합리적으로 보입니다. “AI를 써도 된다, 다만 결과물에 대한 검증 책임은 100% 저자에게 있다”는 겁니다.

여러분이 만약 연구자라면, 혹은 AI로 글을 쓰는 모든 사람이라면 한번 생각해 볼 만한 질문이 있습니다. AI가 만들어준 사실, 숫자, 출처를 마지막으로 직접 확인한 게 언제였나요. 편리함의 대가는 생각보다 빨리, 그리고 비싸게 청구될지도 모릅니다.

arXiv가 던진 경고장: AI가 지어낸 인용을 더는 봐주지 않겠다

arXiv가 이 정도까지 강수를 둔 이유

1년 게재 금지가 의미하는 것

검증의 책임은 결국 인간에게

다른 출판 플랫폼도 따라갈까

새 경계선은 어디일까

댓글

관련 글

133년을 무너뜨린 AI — 프린스턴이 시험 감독관을 부른 날

26M 파라미터로 Gemini를 흉내낸다고? Needle이 던진 작은 모델의 반란

아마존 직원들이 'AI 토큰을 더 써라' 압박에 시달린다는데