AI 3분 소요

ML의 미래는 결국 '거짓말'로 수렴한다 — Aphyr이 던진 불편한 예언

분산 시스템 테스트 도구 Jepsen으로 유명한 Kyle Kingsbury, 일명 Aphyr이 ML의 미래에 대해 묵직한 글을 남겼습니다. 제목부터 도발적입니다. “ML promises to be profoundly weird.” 그의 핵심 주장은 간단합니다. 머신러닝은 본질적으로 그럴듯한 거짓말을 만들어내는 기술이며, 이 특성은 시간이 지날수록 더 강해진다는 것입니다.

Aphyr은 누구이고, 왜 이 이야기를 하는가

Aphyr은 데이터베이스와 분산 시스템의 일관성을 검증하는 Jepsen 프로젝트로 업계에서 두려운 존재가 된 사람입니다. MongoDB, Elasticsearch, CockroachDB 등 수많은 데이터베이스가 그의 테스트를 거치며 숨겨진 결함을 드러냈습니다. 그가 하는 일의 본질은 “이 시스템이 정말로 약속한 대로 동작하는가”를 증명하는 것입니다.

이런 사람이 ML을 바라보면 어떤 시각이 나올까요. 당연히 “이 시스템의 출력을 신뢰할 수 있는가"라는 질문에서 시작합니다. 그리고 그의 답은 꽤 비관적입니다.

거짓말 기계의 구조적 문제

전통적인 소프트웨어는 버그가 있으면 고칠 수 있습니다. 입력과 출력 사이의 로직이 명확하기 때문입니다. 데이터베이스가 잘못된 값을 반환하면 코드를 추적해서 원인을 찾아 패치를 적용하면 됩니다.

ML은 다릅니다. 대규모 언어 모델이 틀린 정보를 자신감 있게 내놓았을 때, 그 원인을 정확히 특정할 수 없습니다. 수십억 개의 파라미터 어딘가에서 패턴이 잘못 조합된 것이지만, 그게 정확히 어디인지, 왜 그런 조합이 나왔는지 추적하는 건 사실상 불가능합니다. Aphyr은 이것을 구조적 불투명성이라고 봅니다. 고칠 수 없는 버그가 아니라, 버그인지 아닌지조차 판단하기 어려운 상태라는 것입니다.

더 불편한 점은 이겁니다. 모델이 더 커지고 더 정교해질수록, 거짓말도 더 정교해진다는 사실입니다. GPT-2 시절의 할루시네이션은 금방 알아차릴 수 있었습니다. 하지만 최신 모델들의 할루시네이션은 전문가조차 속일 수 있는 수준에 도달하고 있습니다.

“Profoundly Weird"의 진짜 의미

Aphyr이 “profoundly weird"라는 표현을 쓴 이유가 있습니다. 인류 역사에서 이렇게 그럴듯하게 거짓말하는 도구는 존재한 적이 없기 때문입니다.

책은 저자가 있습니다. 뉴스는 편집 과정을 거칩니다. 위키피디아는 출처를 요구합니다. 인간 사회는 수천 년에 걸쳐 정보의 신뢰성을 판단하는 체계를 만들어왔습니다. 저자의 권위, 기관의 검증, 동료 평가, 출처 추적. 이 모든 것이 “이 정보를 믿어도 되는가"라는 질문에 대한 답을 주는 장치입니다.

ML은 이 체계를 무력화합니다. 출력에는 저자가 없습니다. 편집 과정도 없습니다. 출처를 물어보면 존재하지 않는 논문을 지어냅니다. 문제는 이 출력이 대단히 유창하고 설득력 있다는 것입니다. 형식은 완벽하고 내용만 거짓인 텍스트. 이것이 Aphyr이 말하는 “profoundly weird"의 핵심입니다.

인식론적 위기 — 무엇을 믿을 것인가

이 문제는 단순히 기술적 한계가 아니라 인식론적 위기입니다. 우리가 세상을 이해하는 방식 자체가 흔들리는 것입니다.

이미 징후는 나타나고 있습니다. 학술 논문에 AI가 생성한 가짜 참고문헌이 섞여 들어가는 사례가 보고되고 있습니다. 법률 문서에 존재하지 않는 판례가 인용되는 일이 실제로 벌어졌습니다. 코드 리뷰에서 AI가 생성한 코드가 자신감 있게 잘못된 로직을 구현하는 경우도 흔합니다.

Aphyr의 관점에서 이 문제가 특히 심각한 이유는 규모입니다. 인간이 거짓말을 하면 그 범위는 제한적입니다. 하지만 ML 모델은 초당 수천 개의 그럴듯한 거짓말을 생성할 수 있습니다. 그리고 이 거짓말들이 인터넷에 쌓이면, 다음 세대의 모델은 그 거짓말을 학습 데이터로 삼게 됩니다. 일종의 인식론적 오염이 자기 강화적으로 확대되는 구조입니다.

그래서 우리는 어떻게 해야 하는가

Aphyr이 이 글에서 명쾌한 해결책을 제시하지는 않습니다. 그는 본질적으로 문제를 정의하는 사람이지, 해결책을 파는 사람이 아닙니다. Jepsen이 그랬듯이, 그의 역할은 “여기 문제가 있다"고 정확히 짚어주는 것입니다.

다만 몇 가지 방향은 읽어낼 수 있습니다. 첫째, ML 출력을 기본적으로 신뢰하지 않는 자세가 필요합니다. 둘째, 검증 가능한 출처와 연결되지 않는 정보는 유보적으로 받아들여야 합니다. 셋째, 그리고 가장 근본적으로, ML 시대에 맞는 새로운 인식론적 도구와 습관을 개발해야 합니다.

이것은 개인의 리터러시 문제를 넘어서 사회적 인프라의 문제입니다. 검색 엔진이 AI 생성 콘텐츠로 오염되고, 학술 DB가 가짜 논문으로 희석되는 상황에서 개인의 비판적 사고만으로는 한계가 있습니다.


Aphyr의 글은 결국 이런 질문을 던집니다. 우리는 지금 진실의 비용이 급격히 올라가는 시대로 진입하고 있는 것은 아닌가. 거짓말은 무한히 생산되고, 진실을 검증하는 데는 점점 더 많은 노력이 드는 세상. 여러분은 오늘 AI가 생성한 텍스트를 몇 번이나 검증 없이 받아들이셨나요?

AI 머신러닝 인식론 Aphyr 할루시네이션

댓글

    댓글을 불러오는 중...