Zum Inhalt springen

Rate-Limits

Rate-Limits schützen den Dienst und gewährleisten eine faire Nutzung. Limits werden pro Tarifstufe definiert und variieren je nach Modell.

Limits variieren sowohl nach Tarifstufe als auch nach Modell. Die folgende Tabelle zeigt repräsentative Bereiche über alle fünf Stufen:

MetrikBasicStandard 1000Standard 2000Standard 3000Standard 4000
Verfügbare Modelle1538383838
RPM20–12060–5.00060–5.00020–5.00060–5.000
Eingabe-TPM109–87.500218–5.000.000435–5.000.000653–5.000.000870–5.000.000

Zur Veranschaulichung der Skalierung hier die Limits für zwei repräsentative Modelle:

Llama 3.3 70B (T-Cloud, Deutschland):

StufeRPMEingabe-TPMAusgabe-TPM
Basic2013.8005.000
Standard 100015034.50012.500
Standard 200030069.00025.000
Standard 3000450103.50037.500
Standard 4000600138.00050.000

GPT-4.1 (Azure, EU — nur Standard-Stufen):

StufeRPMEingabe-TPMAusgabe-TPM
Standard 10005.0005.000.0005.000.000
Standard 20005.0005.000.0005.000.000
Standard 30005.0005.000.0005.000.000
Standard 40005.0005.000.0005.000.000

Für die vollständige Aufschlüsselung pro Modell für Ihren Tarif besuchen Sie die Seite Tarife & Preise oder laden Sie die Leistungsbeschreibung (PDF) herunter.

  • TPM (Token pro Minute) — Maximale Anzahl verarbeiteter Eingabe-Token pro Minute
  • RPM (Anfragen pro Minute) — Maximale Anzahl von API-Anfragen pro Minute
  • Limits gelten pro API-Schlüssel
  • Sowohl Eingabe- als auch Ausgabe-Token zählen zu den TPM-Limits

Antworten von Azure-gehosteten Modellen (GPT, o-Serie) enthalten Header, die Ihnen helfen, die Nutzung im Verhältnis zu den Limits zu verfolgen:

HeaderBeschreibung
x-ratelimit-limit-requestsMaximale erlaubte Anfragen pro Minute
x-ratelimit-limit-tokensMaximale erlaubte Token pro Minute
x-ratelimit-remaining-requestsVerbleibende Anfragen im aktuellen Zeitfenster
x-ratelimit-remaining-tokensVerbleibende Token im aktuellen Zeitfenster
x-ratelimit-reset-requestsZeit bis zum Zurücksetzen des Anfrage-Limits
x-ratelimit-reset-tokensZeit bis zum Zurücksetzen des Token-Limits
import os
import httpx
# Use httpx directly to inspect response headers
response = httpx.post(
"https://llm-server.llmhub.t-systems.net/v2/chat/completions",
headers={"Authorization": f"Bearer {os.getenv('OPENAI_API_KEY')}"},
json={
"model": "gpt-4.1",
"messages": [{"role": "user", "content": "Hello"}],
"max_tokens": 10,
},
)
print(f"Requests remaining: {response.headers.get('x-ratelimit-remaining-requests')}")
print(f"Tokens remaining: {response.headers.get('x-ratelimit-remaining-tokens')}")
print(f"Resets in: {response.headers.get('x-ratelimit-reset-requests')}")

Wenn Sie ein Rate-Limit überschreiten, gibt die API einen 429 Too Many Requests-Fehler zurück. Best Practices:

  1. Antwort-Header überwachen — Prüfen Sie die x-ratelimit-remaining-*-Header, um Limits nicht zu erreichen
  2. Exponentielles Backoff implementieren — Verlängern Sie die Wartezeit zwischen Wiederholungsversuchen
  3. Anfragen bündeln — Fassen Sie mehrere kleine Anfragen zu weniger größeren zusammen
  4. Antworten cachen — Vermeiden Sie das Wiederholen identischer Anfragen
  5. Queue-API verwenden — Für Batch-Workloads nutzen Sie asynchrone Anfragen, um die Last zu verteilen
import time
from openai import OpenAI, RateLimitError
client = OpenAI()
def safe_completion(messages, max_retries=3):
for attempt in range(max_retries):
try:
return client.chat.completions.create(
model="Llama-3.3-70B-Instruct",
messages=messages,
)
except RateLimitError:
wait_time = 2 ** attempt
print(f"Rate limited. Waiting {wait_time}s...")
time.sleep(wait_time)
raise Exception("Max retries exceeded")
  • Tarif upgraden — Höhere Stufen haben deutlich höhere TPM- und RPM-Limits
  • Dedizierte Instanzen — Für Enterprise-Workloads kontaktieren Sie uns für dedizierte GPU-Ressourcen mit individuellen Rate-Limits
  • Kontakt: T-Cloud Marketplace oder wenden Sie sich an das AIFS-Team unter ai@t-systems.com