Azure AI Foundry Quotas & Tiers – Warum Microsoft das Thema gerade grundlegend verändert

Wer aktuell mit Azure AI Foundry, Azure OpenAI oder modernen Foundation Models arbeitet, merkt relativ schnell, dass ein Thema immer wichtiger wird: Quotas.

Am Anfang wirkt das oft wie ein technisches Nebenthema. Ein paar Limits für Tokens oder Requests, die man irgendwann später vielleicht einmal optimieren muss. In der Praxis entscheidet dieses Thema inzwischen aber darüber, ob eine KI-Anwendung stabil läuft oder unter Last plötzlich auseinanderfällt.

Gerade jetzt verändert Microsoft dieses gesamte System massiv. Und ich glaube, viele haben noch gar nicht realisiert, wie groß dieser Wandel eigentlich ist. (joriskahle.de)

Die alte Azure-OpenAI-Welt

Wer Azure OpenAI schon etwas länger nutzt, kennt vermutlich noch das klassische Modell. Man erstellt eine neue Azure-Subscription, deployed ein Modell und bekommt zunächst relativ kleine Standardlimits. Für erste Tests reicht das meistens problemlos aus. Die ersten Chatbots funktionieren, erste Demos laufen sauber und alles wirkt unkompliziert.

Sobald allerdings echte Last entsteht, wird das Thema plötzlich sichtbar. Dann tauchen die bekannten 429-Fehler auf, Requests werden gedrosselt und Teams beginnen damit, Quota-Erhöhungen über Support-Tickets zu beantragen.

Das war lange Zeit ein ziemlich normaler Prozess.

Aus Microsoft-Sicht war das auch nachvollziehbar. GPU-Ressourcen sind teuer und vor allem bei großen Foundation Models nicht unbegrenzt verfügbar. Gleichzeitig musste verhindert werden, dass einzelne Kunden komplette Regionen blockieren.

Das Problem war nur: Für viele Projekte fühlte sich das Ganze irgendwann eher wie ein künstlicher Flaschenhals an als wie eine moderne Cloud-Plattform.

Microsoft verändert gerade das gesamte Modell

Genau deshalb führt Microsoft inzwischen zunehmend ein neues Tier-System für Azure AI Foundry und Azure OpenAI ein.

Die Idee dahinter ist relativ simpel: Wer die Plattform produktiv und sinnvoll nutzt, soll automatisch mehr Kapazität bekommen. Statt ständig Support-Tickets zu schreiben, skaliert die verfügbare Leistung schrittweise mit der tatsächlichen Nutzung.

Damit bewegt sich Azure AI deutlich stärker in Richtung klassischer Cloud-Skalierung.

Neue Subscriptions starten meist mit eher kleinen Limits, während produktive oder etablierte Umgebungen automatisch höhere Stufen erreichen können. Mit jedem Tier steigen typischerweise die verfügbaren Tokens pro Minute, die Anzahl paralleler Requests und die allgemeine Verarbeitungskapazität.

Das klingt zunächst nach einer kleinen technischen Änderung, verändert in der Praxis aber ziemlich viel. Denn moderne KI-Systeme verhalten sich inzwischen fundamental anders als klassische APIs. (learn.microsoft.com)

Warum das Thema plötzlich so wichtig wird

Vor zwei Jahren waren viele KI-Projekte noch relativ klein. Ein Chatbot, ein paar Requests, vielleicht etwas RAG dazu. Die Last blieb überschaubar.

Heute sieht die Realität oft komplett anders aus.

Moderne KI-Systeme bestehen aus Agenten, Tool Calling, langen Kontextfenstern, multimodalen Modellen und teilweise permanenten Echtzeitverbindungen. Genau dadurch explodiert der Ressourcenverbrauch.

Viele unterschätzen beispielsweise völlig, wie schnell Tokens anwachsen können. Schon ein einzelner Chat-Request enthält heute häufig umfangreiche System Prompts, Conversation History, RAG-Kontext und zusätzliche Tool Responses. Wenn dann hunderte Nutzer gleichzeitig aktiv sind, bewegt man sich sehr schnell im Bereich von Millionen Tokens pro Minute.

Spätestens bei Voice-AI oder Realtime-Szenarien wird das kritisch. Dort verarbeitet das Modell nicht mehr nur einzelne Texteingaben, sondern teilweise dauerhaft laufende Datenströme.

Und genau deshalb reichen starre Limits heute oft nicht mehr aus.

Bedeutet das jetzt das Ende von Quota-Requests?

Nicht ganz.

Und genau an dieser Stelle entsteht aktuell oft Verwirrung.

Microsoft kommuniziert inzwischen relativ klar, dass Quotas zunehmend automatisch wachsen sollen. Viele interpretieren das allerdings sofort als „Support-Tickets gehören der Vergangenheit an“.

So weit ist die Plattform aktuell noch nicht.

In der Praxis zeigt sich momentan eher ein hybrides Modell. Kleine und mittlere Workloads profitieren tatsächlich häufig von automatischen Tier-Upgrades. Gerade Standard-Deployments skalieren heute deutlich entspannter als noch vor einem Jahr.

Trotzdem gibt es weiterhin Szenarien, in denen manuelle Freigaben notwendig werden. Vor allem bei sehr großen produktiven Lasten, stark nachgefragten Modellen oder GPU-knappen Regionen merkt man schnell, dass Kapazitätsmanagement weiterhin eine große Rolle spielt.

Das neue Tier-System reduziert den manuellen Aufwand also deutlich. Komplett verschwunden ist das Thema aber noch nicht. (learn.microsoft.com)

Die Region wird immer wichtiger

Ein Punkt wird dabei oft vergessen: Nicht nur das eigene Tier entscheidet über verfügbare Leistung.

Die Azure-Region spielt inzwischen ebenfalls eine enorme Rolle.

Viele wundern sich aktuell darüber, dass identische Deployments in unterschiedlichen Regionen völlig verschiedene Limits oder Verfügbarkeiten haben. Das liegt vor allem daran, dass Microsoft GPU-Kapazitäten regional verwalten muss.

Je nachdem, wie stark eine Region ausgelastet ist oder welche Modelle dort verfügbar sind, können Quotas sehr unterschiedlich ausfallen.

Genau deshalb wird Multi-Region-Architektur zunehmend wichtiger. Große produktive KI-Systeme werden künftig vermutlich deutlich häufiger Last intelligent über mehrere Regionen verteilen.

Warum PTUs trotzdem relevant bleiben

Interessant ist außerdem, dass das neue Tier-System die klassischen PTUs nicht ersetzt.

Provisioned Throughput Units bleiben weiterhin extrem relevant – vor allem für Unternehmen mit stabilen Produktionsanforderungen.

Der Unterschied ist dabei relativ wichtig. Normale Standard-Quotas basieren auf geteilter Infrastruktur. Die Kapazität ist flexibel, aber eben nicht garantiert. PTUs reservieren dagegen dedizierte Leistung.

Gerade bei Anwendungen wie Contact Center AI, Voice Bots oder großen Agentensystemen wird das Thema planbare Latenz schnell entscheidend.

Viele Unternehmen werden deshalb vermutlich langfristig eine Mischstrategie fahren: flexible Standard-Tiers für allgemeine Skalierung und PTUs für kritische Kernsysteme.

Die eigentliche Herausforderung beginnt erst im Betrieb

Was ich aktuell bei vielen Unternehmen beobachte: Die Entwicklung moderner KI-Anwendungen wird immer einfacher.

Die eigentliche Komplexität verschiebt sich zunehmend in den operativen Betrieb.

Denn sobald KI-Systeme produktiv skaliert werden, tauchen plötzlich völlig neue Themen auf. Routing, Lastverteilung, Kostenkontrolle, Governance oder globale Modellverfügbarkeit werden dann oft wichtiger als das eigentliche Prompt Engineering.

Viele Teams merken relativ schnell, dass die größte Herausforderung heute häufig gar nicht mehr das Modell selbst ist.

Die eigentliche Herausforderung lautet eher: Wie betreibt man eine KI-Plattform stabil für tausende Nutzer?

Und genau deshalb investiert Microsoft aktuell massiv in Azure AI Foundry als vollständige AI-Plattform – nicht mehr nur als einzelne Modell-API. (techcommunity.microsoft.com)

Fazit

Das neue Quota-Tier-System ist definitiv ein großer Schritt nach vorne.

Vor allem kleinere Teams und produktive Standard-Workloads profitieren bereits heute davon, dass viele Limits automatisch wachsen und weniger manuelle Prozesse notwendig sind.

Gleichzeitig zeigt sich aber auch, dass moderne KI-Infrastruktur deutlich komplexer wird als klassische API-Nutzung.

Am Ende entscheidet nicht nur das Modell über den Erfolg einer KI-Plattform, sondern zunehmend auch Infrastruktur, Regionen, Routing, GPU-Kapazitäten und intelligentes Ressourcenmanagement.

Genau deshalb entwickelt sich Azure AI Foundry aktuell immer stärker von einer einfachen Modellplattform hin zu einer vollständigen AI-Infrastruktur-Schicht.

Und vermutlich stehen wir damit gerade erst am Anfang.