Zum Inhalt springen

Rate-Limits

Rate-Limits schützen den Dienst und gewährleisten eine faire Nutzung. Limits werden pro Tarif definiert und variieren je nach Modell. Jeder RPM- und TPM-Wert unten ist mit einem Sternchen * markiert — klicken Sie darauf für die vollständigen Bedingungen, unter denen diese Werte angegeben sind.

Limits variieren sowohl nach Tarif als auch nach Modell. Die folgende Tabelle zeigt repräsentative Werte für die drei Tarife:

MetrikEssentialProfessionalAgentic
Verfügbare Modelle424444
Beispiel-RPM *300 *600 *1.000 *

Zur Veranschaulichung der Skalierung hier die Limits für zwei repräsentative Modelle:

GPT-OSS 120B (T-Cloud, Deutschland):

TarifRPM *Eingabe-TPM *Ausgabe-TPM *
Essential300 *300.000 *150.000 *
Professional600 *600.000 *300.000 *
Agentic1.000 *2.000.000 *1.000.000 *

GPT-5.2 (Azure, EU):

TarifRPM *Eingabe-TPM *Ausgabe-TPM *
Essential30.000 *3.000.000 *1.500.000 *
Professional60.000 *6.000.000 *3.000.000 *
Agentic100.000 *10.000.000 *5.000.000 *

Für die vollständige Aufschlüsselung pro Modell für Ihren Tarif besuchen Sie die Seite Tarife & Preise oder laden Sie die Leistungsbeschreibung (PDF) herunter.

  • TPM (Token pro Minute) — Best-Effort-Obergrenze für verarbeitete Eingabe-Token pro Minute; kein SLA-gestützter Durchsatzwert
  • RPM (Anfragen pro Minute) — Best-Effort-Obergrenze für API-Anfragen pro Minute; kein SLA-gestützter Anfragerate-Wert
  • Limits gelten je Vertrag — alle erzeugten API-Schlüssel teilen sich das Kontingent
  • Sowohl Eingabe- als auch Ausgabe-Token zählen zu den TPM-Limits

Anders gesagt: RPM/TPM zeigen, ab wann die Plattform Ihren Traffic drosselt. Sie sagen nichts darüber aus, mit welcher Rate die Plattform Ihren Traffic bedient. Im Shared Service hängt die tatsächlich erreichte Rate von der Plattformlast und der Nutzung desselben Modells durch andere Tenants ab.

Antworten von Azure-gehosteten Modellen (GPT, o-Serie) enthalten Header, die Ihnen helfen, die Nutzung im Verhältnis zu den Limits zu verfolgen:

HeaderBeschreibung
x-ratelimit-limit-requestsMaximale erlaubte Anfragen pro Minute
x-ratelimit-limit-tokensMaximale erlaubte Token pro Minute
x-ratelimit-remaining-requestsVerbleibende Anfragen im aktuellen Zeitfenster
x-ratelimit-remaining-tokensVerbleibende Token im aktuellen Zeitfenster
x-ratelimit-reset-requestsZeit bis zum Zurücksetzen des Anfrage-Limits
x-ratelimit-reset-tokensZeit bis zum Zurücksetzen des Token-Limits
import os
import httpx
# Use httpx directly to inspect response headers
response = httpx.post(
"https://llm-server.llmhub.t-systems.net/v2/chat/completions",
headers={"Authorization": f"Bearer {os.getenv('OPENAI_API_KEY')}"},
json={
"model": "gpt-4.1",
"messages": [{"role": "user", "content": "Hello"}],
"max_tokens": 10,
},
)
print(f"Requests remaining: {response.headers.get('x-ratelimit-remaining-requests')}")
print(f"Tokens remaining: {response.headers.get('x-ratelimit-remaining-tokens')}")
print(f"Resets in: {response.headers.get('x-ratelimit-reset-requests')}")

Wenn Sie ein Rate-Limit überschreiten, gibt die API einen 429 Too Many Requests-Fehler zurück. Best Practices:

  1. Antwort-Header überwachen — Prüfen Sie die x-ratelimit-remaining-*-Header, um Limits nicht zu erreichen
  2. Exponentielles Backoff implementieren — Verlängern Sie die Wartezeit zwischen Wiederholungsversuchen
  3. Anfragen bündeln — Fassen Sie mehrere kleine Anfragen zu weniger größeren zusammen
  4. Antworten cachen — Vermeiden Sie das Wiederholen identischer Anfragen
  5. Queue-API verwenden — Für Batch-Workloads nutzen Sie asynchrone Anfragen, um die Last zu verteilen
import time
from openai import OpenAI, RateLimitError
client = OpenAI()
def safe_completion(messages, max_retries=3):
for attempt in range(max_retries):
try:
return client.chat.completions.create(
model="Llama-3.3-70B-Instruct",
messages=messages,
)
except RateLimitError:
wait_time = 2 ** attempt
print(f"Rate limited. Waiting {wait_time}s...")
time.sleep(wait_time)
raise Exception("Max retries exceeded")

Servicehinweis zu den veröffentlichten RPM- und TPM-Werten

Abschnitt betitelt „Servicehinweis zu den veröffentlichten RPM- und TPM-Werten“

* Die auf dieser Seite gezeigten Werte für Anfragen pro Minute (RPM) und Token pro Minute (TPM) sind Best-Effort-/Best-Case-Obergrenzen im Shared LLM Serving Service. Sie geben den vertraglich maximal zulässigen Verbrauch an — keinen zugesicherten Durchsatz. Es gelten die folgenden Bedingungen:

  • Nicht Teil des Service Level Agreements (SLA). Das 99,9%-Verfügbarkeits-SLA deckt ausschließlich die Erreichbarkeit der API ab; es erstreckt sich nicht auf RPM, TPM, Durchsatz, End-to-End-Latenz oder Time-to-First-Token.
  • Für Open-Source-Modelle auf T-Cloud kann der tatsächlich erreichte Durchsatz bei hoher gleichzeitiger Nachfrage deutlich unterhalb der veröffentlichten Obergrenzen liegen. End-to-End-Latenz und Time-to-First-Token variieren ebenfalls mit der Plattformlast.
  • Der “Beispiel-RPM”-Wert in der Tabelle “Limits nach Tarif” ist ein Richtwert für ein repräsentatives T-Cloud-Modell; präzise Limits variieren je Modell. Professional und Agentic umfassen Premium-Modelle (z. B. Claude Opus) zusätzlich zum Standard-Katalog des Essential-Tarifs.
  • Für vertragliche Zusagen zu Durchsatz, End-to-End-Latenz oder Time-to-First-Token siehe Dedicated LLM Serving — dort können solche Zusagen als Performance-SLAs auf reservierter Hardware verhandelt werden.
  • Tarif upgraden — Höhere Stufen haben deutlich höhere TPM- und RPM-Limits
  • Auf Dedicated LLM Serving wechseln — Im Dedicated LLM Serving gibt es keine RPM/TPM-Obergrenzen. Sie reservieren GPU-Hardware und verbrauchen so viele Token, wie diese erzeugen kann — sinnvoll für bursty Traffic oder strikte Latenz-SLAs, die der Shared Service nicht garantieren kann
  • Kontakt: T-Cloud Marketplace oder wenden Sie sich an das AIFS-Team unter ai@t-systems.com