AI 학습용 음성 4TB가 통째로 털렸다 — Mercor 사건이 드러낸 데이터 노동자의 민낯

요즘 ChatGPT나 Claude 같은 AI에게 음성으로 말 걸어보신 적 있으신가요. 그 자연스러운 음성 대화 뒤에는 누군가가 녹음한 수만 시간의 음성 데이터가 깔려 있습니다. 그런데 그 원본 데이터 4TB가 통째로 인터넷에 노출됐다면 어떨까요. 이번 Mercor 데이터 유출 사건은 AI 산업이 애써 외면해온 그림자, 즉 데이터 노동자의 존재와 그들이 처한 위태로운 상황을 한꺼번에 끌어올렸습니다.

Mercor라는 회사부터 짚고 갑시다

Mercor는 AI 모델 학습을 위해 전 세계 프리랜서 계약자들을 매칭해주는 플랫폼입니다. OpenAI, Anthropic, Meta 같은 빅테크가 자사 모델을 훈련시킬 때 필요한 음성 샘플, 코딩 데이터, 전문가 평가를 이곳을 통해 외주합니다. 한마디로 AI 시대의 인력사무소인데요. 회사 자체는 평가액 20억 달러를 넘긴 핫한 스타트업입니다.

이번에 문제가 된 건 클라우드 스토리지 버킷 설정 오류로 추정되는 노출입니다. 4TB 분량의 음성 녹음 파일과 함께 약 4만 명에 달하는 계약자의 개인정보가 외부에서 접근 가능한 상태로 방치돼 있었다는 보고가 나오고 있습니다. 이름, 이메일, 결제 정보, 그리고 그들이 녹음한 원본 음성까지요.

4TB 음성 데이터가 왜 그렇게 위험할까요

용량 4TB가 감이 잘 안 오실 수 있는데요. 일반적인 음성 녹음 품질 기준으로 따지면 수만 시간 분량입니다. 한 사람이 평생 말하는 양의 몇 배에 해당하죠. 그런데 진짜 무서운 건 용량이 아니라 그 안에 담긴 정보입니다.

요즘 음성 복제 AI는 단 몇 초의 샘플만 있어도 그 사람 목소리를 거의 완벽하게 흉내 냅니다. 4TB의 깨끗한 스튜디오급 녹음이라면 어떨까요. 딥페이크 보이스피싱의 완벽한 재료입니다. “엄마, 나 사고 났어"라고 자식 목소리로 전화 거는 사기, 더 이상 영화 속 얘기가 아닙니다.

게다가 AI 학습용 음성은 평범한 통화 녹음과 다릅니다. 계약자들이 다양한 감정, 다양한 상황, 다양한 문장을 의도적으로 읽어 내려간 데이터입니다. 즉 한 사람의 목소리 지문을 입체적으로 복원할 수 있는 완벽한 자료입니다.

4만 명의 계약자, 누구일까요

Mercor 같은 플랫폼에서 일하는 사람들은 대부분 긱 워커(gig worker)입니다. 시간당 몇 달러에서 수십 달러를 받고 음성을 녹음하거나, 코드를 작성하거나, AI 답변을 평가합니다. 인도, 필리핀, 케냐, 동유럽 등 비교적 인건비가 낮은 지역의 프리랜서가 다수를 차지하는 것으로 알려져 있습니다.

문제는 이들이 계약서에 사인할 때 자기 데이터가 어떻게 보관되고 누가 접근하는지 명확하게 고지받지 못한다는 점입니다. 보수는 적고, 데이터 통제권은 거의 없으며, 사고가 나도 법적 구제 수단이 빈약합니다. 이번 유출로 4만 명의 음성과 신원이 함께 묶여 노출됐다는 건 피해자 한 명 한 명에게 평생 따라다닐 위험이 된다는 뜻입니다.

AI 산업의 불편한 진실

OpenAI의 Sam Altman이나 Anthropic의 Dario Amodei가 무대에 오를 때, 우리가 보는 건 화려한 모델 성능과 벤치마크 점수입니다. 하지만 그 모델을 만든 진짜 토대는 시간당 2달러로 음성을 녹음한 케냐의 누군가, 폭력적 콘텐츠를 분류한 필리핀의 누군가입니다. 업계는 이들을 “보이지 않게 두는 것”에 익숙해져 있었습니다.

이번 사건은 그 보이지 않던 노동을 강제로 가시화시켰습니다. 4TB라는 숫자가 너무 커서 외면할 수 없게 됐죠. 그런데 더 충격적인 건, 이런 클라우드 버킷 노출은 기술적으로 1차원적인 실수라는 점입니다. AWS S3 버킷의 공개 설정을 잘못 건드리는 사고인데, 보안 업계에서 10년 넘게 반복돼 온 클래식한 실수입니다. AI 회사들이 데이터 수집에는 어마어마한 자원을 쏟으면서 정작 그 데이터를 지키는 데는 신경을 덜 쓰고 있다는 방증입니다.

우리는 무엇을 챙겨야 할까요

규제 당국 입장에서는 EU AI Act나 미국 주별 프라이버시법이 이런 케이스를 어떻게 다룰지가 핵심 관전 포인트가 될 겁니다. 특히 음성 데이터는 생체정보(biometric data)로 분류되기 때문에 일반 개인정보보다 훨씬 무거운 처벌이 가능합니다. Mercor가 GDPR 위반으로 글로벌 매출의 4% 과징금을 맞을 가능성도 배제할 수 없습니다.

기업 입장에서는 데이터 파이프라인의 마지막 단계, 즉 외주 계약자가 만지는 데이터의 보안을 더 이상 미룰 수 없게 됐습니다. AI 학습 데이터는 기업의 핵심 자산인데, 그게 외주사 클라우드 버킷에 평문으로 쌓여 있다면 그건 자산이 아니라 폭탄입니다.

소비자 입장에서는 더 근본적인 질문이 남습니다. 우리가 일상적으로 쓰는 AI 비서의 그 매끄러운 목소리, 그건 정말 합법적이고 윤리적으로 수집된 데이터로 만들어진 걸까요. Mercor 사건은 그 질문을 회피하기 어렵게 만들었습니다. AI의 능력이 빠르게 늘어나는 만큼, 그 능력을 만든 사람들의 권리도 같이 늘어나야 한다는 것. 이번 4TB가 우리에게 던지는 가장 무거운 메시지가 아닐까 싶습니다.

AI 학습용 음성 4TB가 통째로 털렸다 — Mercor 사건이 드러낸 데이터 노동자의 민낯

Mercor라는 회사부터 짚고 갑시다

4TB 음성 데이터가 왜 그렇게 위험할까요

4만 명의 계약자, 누구일까요

AI 산업의 불편한 진실

우리는 무엇을 챙겨야 할까요

댓글

관련 글

매일 아이폰에 앱이 몰래 깔린다고? 애플 프라이버시의 또 다른 균열

OpenAI '프라이버시 필터' 공개 — ChatGPT가 진짜 당신의 데이터를 지켜줄까

파이어폭스가 브레이브 광고차단 엔진을 품다 — 브라우저 전쟁의 의외의 동맹