Rate-Limits
Rate-Limits schützen den Dienst und gewährleisten eine faire Nutzung. Limits werden pro Tarifstufe definiert und variieren je nach Modell.
Limits nach Tarifstufe
Abschnitt betitelt „Limits nach Tarifstufe“Limits variieren sowohl nach Tarifstufe als auch nach Modell. Die folgende Tabelle zeigt repräsentative Bereiche über alle fünf Stufen:
| Metrik | Basic | Standard 1000 | Standard 2000 | Standard 3000 | Standard 4000 |
|---|---|---|---|---|---|
| Verfügbare Modelle | 15 | 38 | 38 | 38 | 38 |
| RPM | 20–120 | 60–5.000 | 60–5.000 | 20–5.000 | 60–5.000 |
| Eingabe-TPM | 109–87.500 | 218–5.000.000 | 435–5.000.000 | 653–5.000.000 | 870–5.000.000 |
Beispiel: Limits pro Modell je Tarifstufe
Abschnitt betitelt „Beispiel: Limits pro Modell je Tarifstufe“Zur Veranschaulichung der Skalierung hier die Limits für zwei repräsentative Modelle:
Llama 3.3 70B (T-Cloud, Deutschland):
| Stufe | RPM | Eingabe-TPM | Ausgabe-TPM |
|---|---|---|---|
| Basic | 20 | 13.800 | 5.000 |
| Standard 1000 | 150 | 34.500 | 12.500 |
| Standard 2000 | 300 | 69.000 | 25.000 |
| Standard 3000 | 450 | 103.500 | 37.500 |
| Standard 4000 | 600 | 138.000 | 50.000 |
GPT-4.1 (Azure, EU — nur Standard-Stufen):
| Stufe | RPM | Eingabe-TPM | Ausgabe-TPM |
|---|---|---|---|
| Standard 1000 | 5.000 | 5.000.000 | 5.000.000 |
| Standard 2000 | 5.000 | 5.000.000 | 5.000.000 |
| Standard 3000 | 5.000 | 5.000.000 | 5.000.000 |
| Standard 4000 | 5.000 | 5.000.000 | 5.000.000 |
Für die vollständige Aufschlüsselung pro Modell für Ihren Tarif besuchen Sie die Seite Tarife & Preise oder laden Sie die Leistungsbeschreibung (PDF) herunter.
Wie Rate-Limits funktionieren
Abschnitt betitelt „Wie Rate-Limits funktionieren“- TPM (Token pro Minute) — Maximale Anzahl verarbeiteter Eingabe-Token pro Minute
- RPM (Anfragen pro Minute) — Maximale Anzahl von API-Anfragen pro Minute
- Limits gelten pro API-Schlüssel
- Sowohl Eingabe- als auch Ausgabe-Token zählen zu den TPM-Limits
Rate-Limit-Antwort-Header
Abschnitt betitelt „Rate-Limit-Antwort-Header“Antworten von Azure-gehosteten Modellen (GPT, o-Serie) enthalten Header, die Ihnen helfen, die Nutzung im Verhältnis zu den Limits zu verfolgen:
| Header | Beschreibung |
|---|---|
x-ratelimit-limit-requests | Maximale erlaubte Anfragen pro Minute |
x-ratelimit-limit-tokens | Maximale erlaubte Token pro Minute |
x-ratelimit-remaining-requests | Verbleibende Anfragen im aktuellen Zeitfenster |
x-ratelimit-remaining-tokens | Verbleibende Token im aktuellen Zeitfenster |
x-ratelimit-reset-requests | Zeit bis zum Zurücksetzen des Anfrage-Limits |
x-ratelimit-reset-tokens | Zeit bis zum Zurücksetzen des Token-Limits |
Header auslesen
Abschnitt betitelt „Header auslesen“import osimport httpx
# Use httpx directly to inspect response headersresponse = httpx.post( "https://llm-server.llmhub.t-systems.net/v2/chat/completions", headers={"Authorization": f"Bearer {os.getenv('OPENAI_API_KEY')}"}, json={ "model": "gpt-4.1", "messages": [{"role": "user", "content": "Hello"}], "max_tokens": 10, },)
print(f"Requests remaining: {response.headers.get('x-ratelimit-remaining-requests')}")print(f"Tokens remaining: {response.headers.get('x-ratelimit-remaining-tokens')}")print(f"Resets in: {response.headers.get('x-ratelimit-reset-requests')}")curl -i -X POST "$OPENAI_BASE_URL/chat/completions" \ -H "Authorization: Bearer $OPENAI_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "gpt-4.1", "messages": [{"role": "user", "content": "Hello"}], "max_tokens": 10 }'
# The -i flag shows response headers including:# x-ratelimit-remaining-requests: 19# x-ratelimit-remaining-tokens: 18740# x-ratelimit-reset-requests: 3sUmgang mit Rate-Limits
Abschnitt betitelt „Umgang mit Rate-Limits“Wenn Sie ein Rate-Limit überschreiten, gibt die API einen 429 Too Many Requests-Fehler zurück. Best Practices:
- Antwort-Header überwachen — Prüfen Sie die
x-ratelimit-remaining-*-Header, um Limits nicht zu erreichen - Exponentielles Backoff implementieren — Verlängern Sie die Wartezeit zwischen Wiederholungsversuchen
- Anfragen bündeln — Fassen Sie mehrere kleine Anfragen zu weniger größeren zusammen
- Antworten cachen — Vermeiden Sie das Wiederholen identischer Anfragen
- Queue-API verwenden — Für Batch-Workloads nutzen Sie asynchrone Anfragen, um die Last zu verteilen
import time
from openai import OpenAI, RateLimitError
client = OpenAI()
def safe_completion(messages, max_retries=3): for attempt in range(max_retries): try: return client.chat.completions.create( model="Llama-3.3-70B-Instruct", messages=messages, ) except RateLimitError: wait_time = 2 ** attempt print(f"Rate limited. Waiting {wait_time}s...") time.sleep(wait_time) raise Exception("Max retries exceeded")Höhere Limits benötigt?
Abschnitt betitelt „Höhere Limits benötigt?“- Tarif upgraden — Höhere Stufen haben deutlich höhere TPM- und RPM-Limits
- Dedizierte Instanzen — Für Enterprise-Workloads kontaktieren Sie uns für dedizierte GPU-Ressourcen mit individuellen Rate-Limits
- Kontakt: T-Cloud Marketplace oder wenden Sie sich an das AIFS-Team unter ai@t-systems.com