Azure 3분 소요

전직 Azure 엔지니어가 말하는 신뢰 증발기 — 마이크로소프트 클라우드에 무슨 일이 있었나

클라우드 시장에서 AWS 다음으로 큰 이름, Azure. 그런데 최근 몇 년간 전직 Azure 엔지니어들의 내부 폭로가 하나둘 쌓이면서 업계의 시선이 심상치 않습니다. 단순한 불만이 아니라, 기술 의사결정 구조 자체에 대한 문제 제기인데요. 클라우드에 인프라를 맡긴 기업이라면 한 번쯤 짚어봐야 할 이야기입니다.

엔지니어링보다 매출이 먼저인 구조

전직 Azure 엔지니어들이 공통적으로 지적하는 문제는 기술 부채보다 영업 목표가 우선이라는 점입니다. 새로운 서비스를 빠르게 출시해서 고객 수를 늘리는 것이 내부 평가의 핵심 지표가 되면서, 기존 서비스의 안정성 개선은 뒷전으로 밀린다는 겁니다.

실제로 Azure는 지난 몇 년간 크고 작은 장애를 반복적으로 겪었습니다. 2023년부터 2025년까지 대규모 글로벌 장애만 해도 손에 꼽기 어려울 정도입니다. 문제는 장애 자체가 아니라, 같은 유형의 장애가 반복된다는 점입니다. 근본 원인을 고치기보다 임시 패치로 넘어가는 패턴이 구조적으로 반복되고 있다는 내부 증언이 이어지고 있습니다.

신뢰 증발기 — 작은 균열이 만드는 큰 불신

전직 엔지니어들이 사용하는 표현 중 신뢰 증발기(trust erosion)라는 개념이 있습니다. 한 번의 대형 사고가 아니라, 작은 문제들이 쌓이면서 고객의 신뢰가 서서히 증발하는 현상을 말합니다.

가령 이런 식입니다. SLA(서비스 수준 계약)는 99.99%를 약속하지만, 실제 가동률은 그에 미치지 못하는 경우가 발생합니다. 장애 보고서(Post-Incident Review)는 발행되지만, 재발 방지책이 다음 장애 전에 구현되지 못합니다. 지원 티켓을 올리면 1차 응답은 빠르지만, 실제 해결까지 걸리는 시간은 예측할 수 없습니다.

한두 번은 넘길 수 있습니다. 하지만 이런 경험이 쌓이면 인프라 의사결정권자는 조용히 멀티 클라우드 전략을 검토하기 시작합니다. 전환 비용이 높은 클라우드 시장에서 고객이 대안을 진지하게 고민한다는 것 자체가 심각한 신호입니다.

조직 문화의 문제 — 경고를 무시하는 시스템

여러 전직 엔지니어들이 공통적으로 언급하는 것이 있습니다. 내부에서 위험 신호를 올려도 의사결정 과정에서 걸러진다는 것입니다. 기술 리더십이 경영진에게 보고할 때 문제의 심각성이 희석되고, 결국 자원 배분 우선순위에서 밀린다는 구조입니다.

이 문제는 마이크로소프트만의 이야기가 아닙니다. 빅테크 전반에서 나타나는 현상이기도 합니다. 다만 클라우드 인프라는 수천, 수만 개 기업의 서비스가 위에 올라가 있는 기반 시설입니다. 소셜 미디어 앱의 버그와는 파급력이 다릅니다. 그래서 더 높은 수준의 엔지니어링 문화가 요구되는데, 현재의 Azure 조직 구조가 그 기대에 부응하고 있는지에 대한 의문이 커지고 있습니다.

AWS와 GCP는 다른가

공정하게 말하면, AWS도 장애를 겪고 Google Cloud도 완벽하지 않습니다. 하지만 커뮤니티에서 Azure에 대한 불만이 유독 두드러지는 데는 이유가 있습니다.

AWS는 장애 후 상세한 기술 보고서를 공개하는 문화가 비교적 잘 정착되어 있습니다. Google Cloud는 SRE(Site Reliability Engineering) 방법론의 발상지답게 안정성 엔지니어링에 대한 투자를 꾸준히 강조합니다. 반면 Azure는 기능 출시 속도에서는 경쟁력이 있지만, 운영 안정성 문화에서 상대적으로 뒤처진다는 인식이 개발자 커뮤니티에 퍼져 있습니다.

특히 Hacker News나 Reddit의 인프라 관련 서브레딧에서는 Azure 관련 장애 스레드마다 전현직 엔지니어들의 증언성 댓글이 달리는 패턴이 반복되고 있습니다. 이런 흐름 자체가 신뢰 증발의 가속 요인이 됩니다.

AI 투자에 쏠린 자원, 기본기는 괜찮은가

마이크로소프트는 지금 AI에 올인하고 있습니다. OpenAI와의 파트너십을 기반으로 Copilot 생태계를 확장하고, Azure AI 서비스를 전면에 내세우고 있습니다. 투자 규모만 수백억 달러에 달합니다.

문제는 이 과정에서 기존 클라우드 인프라의 기본기, 즉 네트워크 안정성, 스토리지 신뢰성, 컴퓨팅 가용성에 대한 투자가 상대적으로 소홀해지는 것 아니냐는 우려입니다. AI 워크로드가 폭발적으로 증가하면서 기존 인프라에 가해지는 부하도 커지고 있는데, 기반을 다지는 일보다 새 건물을 올리는 데 자원이 집중되는 구조는 장기적으로 위험할 수 있습니다.

전직 엔지니어 중 일부는 이를 두고 “지붕을 올리면서 기초를 방치하는 격”이라고 표현하기도 합니다.


클라우드 인프라의 신뢰는 한 번에 무너지지 않습니다. 작은 실망이 쌓이고, 대안이 보이기 시작할 때 조용히 이동이 시작됩니다. 마이크로소프트가 AI 시대의 주도권을 쥐려면, 화려한 신기능 이전에 기본기부터 다시 점검해야 할 때가 아닐까요. 여러분이 인프라 의사결정권자라면, 지금 Azure에 대한 신뢰 수준은 어느 정도인가요?

Azure 클라우드 마이크로소프트 인프라 기술문화

댓글

    댓글을 불러오는 중...