AI 워터마크 3분 소요

구글이 AI 콘텐츠에 몰래 심은 워터마크, 결국 뚫렸다

AI가 만든 글인지, 사람이 쓴 글인지 구별하는 문제. 이건 더 이상 학술적 논쟁이 아닙니다. 학교 과제부터 뉴스 기사, 법률 문서까지 — AI 생성 콘텐츠의 신뢰성은 사회 전반의 문제가 됐습니다. 구글 딥마인드가 야심차게 내놓은 워터마킹 기술 SynthID가 역공학 공격에 뚫리면서, “기술로 기술을 잡겠다"는 접근법의 근본적 한계가 수면 위로 올라왔습니다.

SynthID는 어떻게 작동하는가

SynthID는 구글 딥마인드가 2023년부터 개발해온 AI 워터마킹 기술입니다. 핵심 원리는 생각보다 단순합니다. AI가 텍스트를 생성할 때, 다음에 올 단어(토큰)를 고르는 확률 분포를 아주 미세하게 조정하는 겁니다.

예를 들어 “오늘 날씨가"라는 문장 뒤에 “좋다"와 “맑다"가 거의 같은 확률로 후보에 올랐다면, SynthID는 특정 패턴에 따라 둘 중 하나를 살짝 더 선호하도록 만듭니다. 사람이 읽기에는 아무 차이가 없지만, 탐지 알고리즘은 이 통계적 편향을 읽어낼 수 있습니다. 구글은 이 기술을 Gemini 모델 전반에 적용했고, 이미지, 오디오, 영상까지 확장해왔습니다.

핵심은 비가시성입니다. 텍스트 품질을 떨어뜨리지 않으면서도, 기계는 알아볼 수 있는 흔적을 남기겠다는 것이죠.

뚫리는 건 시간 문제였다

보안 업계에는 오래된 격언이 있습니다. “숨기는 것은 보안이 아니다(Security through obscurity is no security at all).” SynthID의 약점도 정확히 여기에 있었습니다.

연구자들은 SynthID가 토큰 확률 분포를 조작하는 방식 자체를 역공학하는 데 성공했습니다. 접근법은 크게 두 가지입니다. 첫째, 패러프레이징 공격 — AI가 생성한 텍스트를 다른 모델로 다시 써서 워터마크 패턴을 깨뜨리는 방법입니다. 문장 구조만 바꿔도 토큰 수준의 통계적 서명은 무너집니다. 둘째, 토큰 조작 공격 — 워터마크가 의존하는 토큰 선택 패턴을 분석한 뒤, 의미를 유지하면서 특정 토큰만 교체하는 방법입니다.

더 근본적인 문제도 있습니다. SynthID의 워터마크 강도는 텍스트 길이에 비례합니다. 짧은 문장이나 단락 수준에서는 탐지 정확도가 급격히 떨어집니다. 트위터 한 줄, 댓글 한 문단 — 실제로 가짜 정보가 퍼지는 형식에서는 사실상 무력한 셈이죠.

AI 탐지 군비경쟁의 구조적 딜레마

이 문제는 SynthID만의 문제가 아닙니다. AI 워터마킹 기술 전체가 공유하는 구조적 딜레마입니다.

워터마크를 강하게 심으면 텍스트 품질이 떨어집니다. 약하게 심으면 쉽게 제거됩니다. 이 트레이드오프에서 “품질도 완벽하고 제거도 불가능한” 워터마크란 이론적으로 존재하기 어렵습니다. 메릴랜드대 연구팀이 2024년 발표한 논문에서도, 주요 텍스트 워터마킹 기법 대부분이 단순한 패러프레이징만으로 탐지율이 50% 이하로 떨어진다는 결과를 보여줬습니다.

공격자 쪽에는 추가적인 이점도 있습니다. 오픈소스 LLM이 보편화되면서, 워터마크가 없는 모델로 텍스트를 재생성하는 비용이 거의 제로에 가까워졌습니다. 방어자는 모든 경로를 막아야 하지만, 공격자는 단 하나의 우회로만 찾으면 됩니다.

그러면 대안은 무엇인가

워터마킹이 실패한다면, AI 콘텐츠를 어떻게 관리해야 할까요. 현재 논의되는 접근법은 크게 세 가지입니다.

메타데이터 기반 출처 추적이 첫 번째입니다. C2PA(Coalition for Content Provenance and Authenticity)처럼, 콘텐츠가 생성된 시점의 맥락 정보를 암호학적으로 서명해서 함께 배포하는 방식입니다. 워터마크와 달리 콘텐츠 자체를 변형하지 않아 품질 저하가 없지만, 메타데이터를 떼어내면 그만이라는 한계가 있습니다.

플랫폼 수준의 라벨링 의무화가 두 번째입니다. EU AI Act가 이 방향을 택했습니다. AI로 생성한 콘텐츠에는 반드시 라벨을 붙이도록 법으로 강제하는 것이죠. 기술적 해법이 아니라 제도적 해법인 셈입니다.

세 번째는 결국 사후 탐지 기술의 고도화입니다. 워터마크에 의존하지 않고, 텍스트의 통계적 특성 자체를 분석해 AI 생성 여부를 판단하는 방식입니다. 다만 이 역시 모델이 진화할수록 탐지가 어려워지는 같은 군비경쟁 구조에서 벗어나지 못합니다.

진짜 질문은 따로 있다

SynthID 역공학 사건이 던지는 진짜 질문은 기술적인 게 아닙니다. “AI가 만든 콘텐츠를 반드시 구별해야 하는가, 그리고 그게 가능하기는 한가"라는 더 근본적인 물음입니다.

어쩌면 우리는 “AI 콘텐츠를 완벽하게 탐지할 수 있다"는 전제 자체를 내려놓아야 할지도 모릅니다. 대신 콘텐츠의 출처와 맥락을 투명하게 만드는 시스템, 그리고 그 시스템을 뒷받침하는 제도적 장치에 더 집중해야 할 때입니다. AI가 쓴 글이 문제가 되는 건 AI가 썼기 때문이 아니라, AI가 쓴 걸 사람이 쓴 것처럼 속이기 때문이니까요.

AI 워터마크 SynthID 구글 AI 탐지 역공학

댓글

    댓글을 불러오는 중...