AI 인프라 수익성 향상에 방점
추론 최적화로 틈새 겨냥
이 기사는 1월 30일 오전 11시26분 '해외 주식 투자의 도우미' GAM(Global Asset Management)에 출고된 프리미엄 기사입니다. GAM에서 회원 가입을 하면 9000여 해외 종목의 프리미엄 기사를 보실 수 있습니다.
[서울=뉴스핌] 황숙혜 기자 = 마이크로소프트(MSFT)가 최근 선보인 신형 인공지능(AI) 칩 마이아(Maia) 200이 IT 업계는 물론이고 월가에서도 화제다.
엔비디아의 독주를 견제할 제품인가를 놓고 의견이 다소 엇갈리는 가운데 이번 신형 칩은 마이크로소프트의 AI 전략을 함축적으로 보여준다는 데 월가는 공감대를 형성한다.
연초 공개한 업체의 추론 가속기 칩 마이아 200은 단순한 신제품이 아니라 엔비디아 의존도를 줄이고 AI 인프라 수익성을 끌어올리려는 전략의 핵심 축이라는 점에서 의미가 크다. 동시에, 엔비디아 블랙웰(Blackwell) 계열 GPU(그래픽처리장치)와 정면 경쟁이라기보다 추론(inference) 최적화라는 틈새를 파고드는 보완재적 포지셔닝에 가깝다는 분석이다.
마이아 200은 거대언어모델(LLM) 같은 생성형 AI가 실제 서비스 단계에서 토큰을 생성할 때 들어가는 비용과 지연 시간을 크게 낮추도록 설계된 AI 추론 전용 가속기 칩이다. 다시 말해, 학습(training)보다 상용 서비스 단계의 효율을 극대화해 마이크로소프트 애저(Azure) 데이터센터 전체의 경제성을 개선하는 데 1차적인 목적을 둔 제품이다.
이 칩은 대만 TSMC의 3나노미터 공정으로 제조되며, 1개의 칩 안에 1400억 개가 넘는 트랜지스터(전자 스위치)가 집적된 대형 시스템온칩(SoC) 구조를 갖췄다. 마이크로소프트는 마이아 200이 4비트 부동소수점(FP4, 매우 낮은 정밀도의 수치 표현 방식) 기준 10페타플롭스, 8비트(FP8) 기준 5페타플롭스 이상의 연산 성능을 제공한다고 밝히고 있다. 칩 하나가 소비하는 전력은 750와트 수준으로, 고성능 GPU급 전력 예산 안에서 추론에 최적화된 연산과 메모리 구성을 짰다는 의미다.
특징적인 부분은 메모리 서브 시스템이다. 마이아 200은 216GB 용량의 HBM3e(고대역폭 메모리)와 초당 7TB의 메모리 대역폭을 제공하며, 272MB 규모의 온칩 SRAM(초고속 내장 메모리)을 통해 연산 코어에 데이터를 끊김 없이 공급하도록 설계됐다.

여기에 좁은 정밀도 데이터 타입, 즉 4비트와 8비트 위주의 데이터에 특수 DMA(직접 메모리 접근) 엔진, 맞춤형 온칩 네트워크(NoC·칩 내부 통신망)를 결합해 토큰 처리량(token throughput)을 극대화했다는 점이 강조된다.
마이아 200은 마이크로소프트가 '이종(heterogeneous) AI 인프라'라고 부르는 전략의 일부로, 엔비디아 GPU와 자체 학습용 칩, CPU 등과 함께 하나의 클라우드 플랫폼에서 혼합 운용되도록 설계됐다. 이 칩은 오픈AI의 최신 GPT 5.2(거대언어모델) 추론, 마이크로소프트 365 코파일럿(업무용 AI 비서), 애저 AI 파운드리(기업용 AI 개발 플랫폼) 등에 투입되어, 같은 수준의 성능을 더 낮은 비용으로 제공할 수 있다고 업체는 설명한다.
마이아 200의 설계는 플롭스(FLOPS·초당 부동소수점 연산 횟수)를 늘리는 것보다 메모리 병목을 줄이고 네트워크 비용을 낮추는 데 초점이 맞춰져 있다. 거대언어모델 추론에서는 연산 자체보다 방대한 파라미터와 중간 결과를 빠르게 주고받는 메모리 및 네트워크 대역이 병목으로 작용하는 경우가 많기 때문이다.

시스템 수준에서 마이아 200은 표준 이더넷(Ethernet) 기반의 새로운 2계층 스케일업(scale up·단일 시스템 확장) 네트워크 구조를 채택했다. 마이크로소프트는 전용 및 독점형 패브릭 대신 자체 설계한 전송 계층과 NIC(네트워크 인터페이스 컨트롤러, 네트워크 연결 칩)를 이더넷 위에 얹는 방식으로 비용 절감과 확장성을 동시에 확보했다고 설명한다.
마이아 200 가속기는 양방향 기준 초당 2.8TB의 스케일업 대역폭을 노출하며, 최대 6144개의 가속기까지 집합적 연산(collective operations·여러 칩이 동시에 참여하는 연산)을 예측 가능하고 안정된 성능으로 수행하도록 설계됐다.
한 트레이 안에는 네 개의 마이아 가속기가 스위치 없이 직접 연결돼 있고, 동일한 통신 프로토콜을 랙 내에서나 랙 사이에서 클러스터 전체로 확장하는 '마이아 AI 전송 프로토콜'을 통해 네트워크 홉 수를 줄이면서 프로그램 구조를 단순화했다.
이 같은 통합형 패브릭(fabric·고속 데이터 통신 구조)은 개발자에게도 의미가 상당하다. 마이크로소프트는 마이아 전용 SDK(소프트웨어 개발 키트)를 프리뷰 형태로 제공하면서 파이토치(PyTorch, 딥러닝 프레임워크) 통합과 트라이톤(Triton, 커스텀 커널 컴파일러) 기반 컴파일러, 최적화 커널 라이브러리, 저수준 프로그래밍 언어 접근 기능 등을 포함했다.
이를 통해 개발자는 하나의 모델을 여러 종류의 가속기 위에서 비교적 쉽게 이식 및 최적화할 수 있고, 필요할 경우 마이아 전용 커널을 직접 튜닝함으로써 추론 비용을 더 낮출 수 있다.
마이아 200은 마이크로소프트의 AI 비즈니스 전략을 세 가지 측면에서 재구성할 것으로 기대된다. 우선, AI 인프라의 원가 구조를 개선해 클라우드와 코파일럿 비즈니스의 마진을 끌어올릴 수 있다는 점이다.
마이크로소프트는 마이아 200이 현재 자사 데이터센터에 배치된 최신 하드웨어 대비 달러당 성능(performance per dollar)을 약 30% 개선, 사내 기준 가장 효율적인 AI 추론 시스템이라고 강조한다. 이는 동일한 AI 서비스를 제공하더라도 인프라 비용을 3분의 1가량 절감할 수 있다는 의미로, 단위 매출당 영업 이익률을 높이는 핵심 지렛대가 될 전망이다.
둘째, 자체 실리콘을 통해 엔비디아 등 외부 공급자에 대한 의존도를 단계적으로 낮추고, 공급망(수급) 리스크를 완화할 수 있다는 점이다.
엔비디아 GPU는 여전히 학습·추론 전 영역에서 사실상의 표준으로 자리잡고 있지만, 수요가 공급을 초과하는 상황이 반복되면서 가격과 납기 측면의 압박이 클라우드 사업자들에게 부담으로 작용해 왔다. 마이크로소프트가 자체 추론 가속기로 일부 워크로드를 흡수할 수 있다면 엔비디아 GPU는 상대적으로 고부가가치 학습과 고정밀 연산 영역에 집중 배치하는 식으로 믹스를 최적화할 수 있다.
마지막으로, 오픈AI 및 사내 AI 연구 조직과의 결속을 강화하는 도구로 기능한다는 점이다. 마이아 200은 오픈AI의 GPT 5.2 모델을 포함한 차세대 모델의 추론 플랫폼으로 쓰이는 동시에 마이크로소프트 '슈퍼인텔리전스(Superintelligence)' 팀의 합성 데이터(synthetic data) 생성 및 강화학습(RL·reinforcement learning) 파이프라인에 투입될 예정이다.
합성 데이터 파이프라인은 의료부터 금융, 제조 등 특정 도메인에 특화된 고품질 데이터를 대량 생성, 필터링해 학습용으로 공급하는 단계인데, 마이아 200의 저정밀, 고대역 설계는 이 과정의 처리량을 크게 높일 수 있다. 이는 곧, 마이크로소프트와 오픈AI의 차세대 모델이 더 빠르게 개선될 수 있는 기반을 제공한다.
이와 함께 마이아 200은 애저 AI 파운드리, 마이크로소프트 365 코파일럿, 깃허브 코파일럿, 다이내믹스 365 등 다양한 SaaS(서비스형 소프트웨어)와 PaaS(서비스형 플랫폼) 제품군에 걸쳐 공통 인프라로 활용될 예정이다.
장기적으로는 AI 포함 클라우드 매출을 견인하는 플랫폼 역할을 할 가능성이 크다는 분석이다. 이러한 수직 통합 구조는 경쟁 클라우드 사업자 대비 가격과 성능, 서비스 번들링 측면에서 차별화를 만들어낼 수 있다고 시장 전문가들은 판단한다.
shhwang@newspim.com













