AI 의료 스크라이브가 환자 이름도 틀렸다 — 온타리오 정부 감사가 드러낸 진료실 AI의 민낯

요즘 북미 병원에 가면 의사가 노트북 대신 환자와 눈을 마주치며 진료하는 모습이 부쩍 늘었습니다. 비결은 진료실 한쪽에서 조용히 듣고 있는 AI 의료 스크라이브(scribe)인데요. 음성을 받아 적고, 진료 차트까지 자동으로 정리해주는 이 기술, 의사들 사이에선 “번아웃을 막아준 구세주"라는 평까지 나옵니다. 그런데 최근 캐나다 온타리오 정부의 감사 결과가 이 장밋빛 그림에 찬물을 끼얹었습니다.

진료실에 들어온 AI, 어디까지 왔나

AI 의료 스크라이브는 단순한 받아쓰기 도구가 아닙니다. 의사와 환자의 대화를 실시간으로 듣고, 진단·처방·소견 같은 의학적 맥락을 추출해 SOAP 노트(Subjective·Objective·Assessment·Plan) 형식으로 정리해주는 생성형 AI 도구입니다. 북미에서는 이미 수만 명의 의사가 사용 중이고, 온타리오주는 가정의학과 의사들의 행정 부담을 줄이기 위해 공식적으로 도입을 권장하기도 했습니다.

문제는 이 도구가 만들어내는 결과물이 사람의 검수 없이도 의무기록으로 들어갈 수 있다는 점입니다. 의사가 시간에 쫓겨 “대충 맞겠지” 하고 그대로 사인하는 순간, AI가 만든 환각이 공식 의료 기록으로 굳어지는 거죠.

온타리오 정부 감사가 발견한 것

이번에 공개된 감사 결과의 핵심은 한 문장으로 요약됩니다. AI 스크라이브가 기본적인 사실조차 틀리고 있다.

감사관들이 확인한 오류 유형은 충격적입니다.

환자 이름이 바뀌어 기록됨
처방 약물의 용량이 잘못 입력됨 (10mg를 100mg으로 적는 식)
환자가 언급한 적 없는 증상이 노트에 등장
의사가 내린 진단과 다른 진단명이 자동 삽입
가족력 정보가 다른 환자의 것과 섞임

특히 약물 용량 오류는 그 자체로 환자 안전 사고로 이어질 수 있는 사안입니다. 한 자릿수만 틀려도 사람이 죽을 수 있는 영역에서, “AI가 그렇게 적었으니까"가 변명이 될 수 있을까요.

왜 이런 오류가 나오는가

근본 원인은 결국 거대언어모델의 환각입니다. 생성형 AI는 “그럴듯한 다음 단어"를 예측하는 모델이지, 사실 검증을 하는 모델이 아닙니다. 진료 대화에서 “타이레놀 500” 같은 발음이 흐릿하게 들어오면, 모델은 자기가 학습한 데이터에서 가장 흔한 용량인 “1000mg"으로 보정해버릴 수 있습니다. 환자가 실제로 무슨 말을 했는지보다, “의사들이 보통 이렇게 처방한다"는 통계적 패턴이 더 강하게 작동하는 거죠.

여기에 의료 도메인 특유의 문제도 겹칩니다. 환자가 사투리나 비표준 표현을 쓰거나, 의사와 환자가 동시에 말하거나, 배경 소음이 들어가면 음성 인식 정확도가 급격히 떨어집니다. 그런데 AI는 “모르겠다"고 말하는 대신 그럴듯하게 채워 넣는 쪽을 선택합니다. 이게 환각의 본질입니다.

의사들의 반응은 갈린다

흥미로운 건 현장 의사들의 반응이 갈린다는 점입니다. AI 스크라이브를 옹호하는 쪽은 “어차피 의사가 최종 검토하니까 안전망이 있다"고 말합니다. 반대쪽은 “하루 40명 진료하는 의사가 매번 노트를 줄 단위로 검수할 시간이 어디 있냐"고 반박합니다.

후자가 더 현실적입니다. AI 스크라이브를 도입하는 가장 큰 이유가 차트 작성 시간 단축인데, 검수에 충분한 시간을 쓰면 도입 효과가 사라집니다. 결국 “대충 훑어보고 사인"이라는 운영 패턴이 자리잡기 쉽고, 그 틈으로 오류가 빠져나갑니다.

더 큰 문제 — 책임은 누구에게

이번 감사가 던진 진짜 질문은 책임 소재입니다. AI가 작성한 노트에 오류가 있고, 그게 환자 피해로 이어졌을 때 누가 책임을 지느냐는 거죠. 의사일까요, AI 회사일까요, 아니면 도입을 권장한 정부일까요.

현재 대부분의 AI 스크라이브 업체는 약관에 “최종 책임은 사용자(의사)에게 있다"고 못박아둡니다. 의사 입장에선 효율은 AI가 가져가고, 책임은 자기가 떠안는 구조입니다. 의료사고 보험사들도 이 문제를 슬슬 들여다보기 시작했습니다.

마무리 — 신기술의 익숙한 함정

AI 의료 스크라이브 자체가 나쁜 기술이라는 얘기는 아닙니다. 잘만 쓰면 의사의 번아웃을 줄이고, 환자와 더 많이 눈을 맞추게 해주는 분명한 효용이 있습니다. 하지만 “AI가 적었으니 맞을 거야”라는 가정 위에서 의료 시스템을 운영하는 건 다른 문제입니다.

온타리오 감사는 결국 익숙한 교훈을 다시 일깨워줍니다. 신기술의 도입 속도가 검증과 안전장치의 속도를 앞지를 때, 그 비용은 가장 취약한 사람들이 치른다는 것. 다음에 병원에 가서 의사 옆에 작은 마이크가 놓여 있다면, 한 번쯤 물어봐도 좋을 것 같습니다. “그 AI, 제 이름은 제대로 알아듣고 있나요?”

AI 의료 스크라이브가 환자 이름도 틀렸다 — 온타리오 정부 감사가 드러낸 진료실 AI의 민낯

진료실에 들어온 AI, 어디까지 왔나

온타리오 정부 감사가 발견한 것

왜 이런 오류가 나오는가

의사들의 반응은 갈린다

더 큰 문제 — 책임은 누구에게

마무리 — 신기술의 익숙한 함정

댓글

관련 글

AI 의사가 진짜 환자를 보기 시작했다 — 2026년 의료 AI의 현주소

arXiv가 던진 경고장: AI가 지어낸 인용을 더는 봐주지 않겠다

AI가 응급실 의사를 이겼다 — 하버드 임상시험이 던진 충격적 질문