Mit Maia 200 bringt Microsoft einen eigenen KI-Beschleuniger in die Azure-Cloud. Der Chip ist auf Inferenz optimiert, erreicht zweistellige PetaFLOPS-Werte bei niedriger Präzision und wird zunächst in US-Regionen verfügbar sein. Parallel startet eine Vorschau des Maia Software Development Kits.
Foto: Microsoft
Microsoft erweitert seine Cloud-Infrastruktur um eigenes Silizium: Mit Maia 200 präsentiert der Konzern einen speziell für KI-Inference entwickelten Beschleuniger, der nahtlos in Azure integriert ist. Der Chip soll große Modelle effizient ausführen und kommt zunächst in ausgewählten US-Rechenzentren zum Einsatz. Neben der Hardware stellt Microsoft auch ein Software Development Kit bereit, um die Anpassung bestehender Modelle zu erleichtern.
Maia 200 basiert auf einer 3-Nanometer-Fertigung und ist auf Low-Precision-Berechnungen ausgelegt. Pro Chip stehen über 10 PetaFLOPS bei 4-Bit-Präzision (FP4) sowie mehr als 5 PetaFLOPS bei 8-Bit-Präzision (FP8) zur Verfügung, bei einer SoC-TDP von 750 Watt. Jeder Beschleuniger enthält über 140 Milliarden Transistoren.
Für datenintensive Inferenz setzt Microsoft auf ein neu gestaltetes Speichersystem mit 216 GB HBM3e bei 7 TB/s Bandbreite sowie 272 MB On-Chip-SRAM. Ergänzt wird dies durch spezialisierte DMA-Engines und eine angepasste On-Chip-Vernetzung, um den Datendurchsatz für große Modelle zu erhöhen.
Auf Systemebene nutzt Maia 200 ein zweistufiges Scale-up-Netzwerk auf Basis von Standard-Ethernet. Pro Accelerator stehen 2,8 TB/s bidirektionale Bandbreite für die Kopplung zur Verfügung. Cluster lassen sich damit auf bis zu 6.144 KI-Beschleuniger skalieren. Innerhalb eines Trays sind jeweils vier Maia-Chips direkt miteinander verbunden, für rack- und clusterübergreifende Kommunikation kommt ein einheitliches Transportprotokoll zum Einsatz.
Microsoft plant, Maia 200 zunächst in der Azure-Region US Central nahe Des Moines, Iowa, bereitzustellen; die Region US West 3 bei Phoenix, Arizona, soll als Nächstes folgen. Weitere Standorte sind vorgesehen.
Der neue Beschleuniger wird unter anderem für Modelle des Microsoft-Superintelligence-Teams eingesetzt, Projekte wie Azure AI Foundry unterstützen und Microsoft 365 Copilot beschleunigen. Auch aktuelle GPT-5.2-Modelle von OpenAI gehören zu den vorgesehenen Workloads. Darüber hinaus nutzt Microsoft Maia 200 für synthetische Datengenerierung und Reinforcement Learning, um eigene Modelle weiterzuentwickeln.
Die Integration in Azure umfasst auch den Betrieb auf Rechenzentrumsebene, inklusive Telemetrie, Diagnose und Management über die Azure-Control-Plane sowie flüssigkeitsbasierter Kühlung. Laut Microsoft liefen KI-Modelle bereits wenige Tage nach Eintreffen der ersten Chips auf produktionsnaher Infrastruktur.
Parallel zur Hardware stellt Microsoft eine Vorschau des Maia Software Development Kits bereit. Das SDK unterstützt gängige KI-Frameworks und soll Entwicklern helfen, Modelle gezielt für Maia-Systeme zu optimieren. Zum Funktionsumfang zählen PyTorch-Integration, ein Triton-Compiler, eine optimierte Kernel-Bibliothek, Zugriff auf eine Maia-eigene Low-Level-Programmiersprache sowie Simulator und Kostenrechner. Ziel ist es, sowohl eine einfache Portierung bestehender Modelle als auch eine feinere Kontrolle bei Bedarf zu ermöglichen.
Mit Maia 200 verfolgt Microsoft eine heterogene Infrastrukturstrategie, bei der eigene Beschleuniger neben anderer Hardware eingesetzt werden. Für Unternehmen bedeutet das vorerst vor allem eines: Inference-Workloads in Azure erhalten eine zusätzliche, speziell darauf ausgelegte Plattform – zunächst allerdings ausschließlich in US-Regionen.