Rate-Limits

Rate-Limits schützen den Dienst und gewährleisten eine faire Nutzung. Limits werden pro Tarif definiert und variieren je nach Modell.

Limits nach Tarif

Limits variieren sowohl nach Tarif als auch nach Modell. Die folgende Tabelle zeigt repräsentative Werte für die drei Tarife:

Metrik	Essential	Professional	Agentic
Verfügbare Modelle	42	44	44
Beispiel-RPM †	300	1.000	3.000

† Beispiel-RPM für ein repräsentatives T-Cloud-Modell — genaue Limits variieren je Modell. Professional und Agentic bieten zusätzlich Premium-Modelle (z. B. Claude Opus), die im Essential-Katalog (nur Standard-Modelle) nicht enthalten sind.

Beispiel: Limits pro Modell je Tarif

Zur Veranschaulichung der Skalierung hier die Limits für zwei repräsentative Modelle:

GPT-OSS 120B (T-Cloud, Deutschland):

Tarif	RPM	Eingabe-TPM	Ausgabe-TPM
Essential	300	300.000	150.000
Professional	600	600.000	300.000
Agentic	1.000	2.000.000	1.000.000

GPT-5.2 (Azure, EU):

Tarif	RPM	Eingabe-TPM	Ausgabe-TPM
Essential	30.000	3.000.000	1.500.000
Professional	60.000	6.000.000	3.000.000
Agentic	100.000	10.000.000	5.000.000

Für die vollständige Aufschlüsselung pro Modell für Ihren Tarif besuchen Sie die Seite Tarife & Preise oder laden Sie die Leistungsbeschreibung (PDF) herunter.

Wie Rate-Limits funktionieren

TPM (Token pro Minute) — Maximale Anzahl verarbeiteter Eingabe-Token pro Minute
RPM (Anfragen pro Minute) — Maximale Anzahl von API-Anfragen pro Minute
Limits gelten je Vertrag — alle erzeugten API-Schlüssel teilen sich das Kontingent
Sowohl Eingabe- als auch Ausgabe-Token zählen zu den TPM-Limits

Rate-Limit-Antwort-Header

Antworten von Azure-gehosteten Modellen (GPT, o-Serie) enthalten Header, die Ihnen helfen, die Nutzung im Verhältnis zu den Limits zu verfolgen:

Header	Beschreibung
`x-ratelimit-limit-requests`	Maximale erlaubte Anfragen pro Minute
`x-ratelimit-limit-tokens`	Maximale erlaubte Token pro Minute
`x-ratelimit-remaining-requests`	Verbleibende Anfragen im aktuellen Zeitfenster
`x-ratelimit-remaining-tokens`	Verbleibende Token im aktuellen Zeitfenster
`x-ratelimit-reset-requests`	Zeit bis zum Zurücksetzen des Anfrage-Limits
`x-ratelimit-reset-tokens`	Zeit bis zum Zurücksetzen des Token-Limits

import os
import httpx

# Use httpx directly to inspect response headers
response = httpx.post(
    "https://llm-server.llmhub.t-systems.net/v2/chat/completions",
    headers={"Authorization": f"Bearer {os.getenv('OPENAI_API_KEY')}"},
    json={
        "model": "gpt-4.1",
        "messages": [{"role": "user", "content": "Hello"}],
        "max_tokens": 10,
    },
)

print(f"Requests remaining: {response.headers.get('x-ratelimit-remaining-requests')}")
print(f"Tokens remaining:   {response.headers.get('x-ratelimit-remaining-tokens')}")
print(f"Resets in:          {response.headers.get('x-ratelimit-reset-requests')}")

curl -i -X POST "$OPENAI_BASE_URL/chat/completions" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-4.1",
    "messages": [{"role": "user", "content": "Hello"}],
    "max_tokens": 10
  }'

# The -i flag shows response headers including:
# x-ratelimit-remaining-requests: 19
# x-ratelimit-remaining-tokens: 18740
# x-ratelimit-reset-requests: 3s

Umgang mit Rate-Limits

Wenn Sie ein Rate-Limit überschreiten, gibt die API einen 429 Too Many Requests-Fehler zurück. Best Practices:

Antwort-Header überwachen — Prüfen Sie die x-ratelimit-remaining-*-Header, um Limits nicht zu erreichen
Exponentielles Backoff implementieren — Verlängern Sie die Wartezeit zwischen Wiederholungsversuchen
Anfragen bündeln — Fassen Sie mehrere kleine Anfragen zu weniger größeren zusammen
Antworten cachen — Vermeiden Sie das Wiederholen identischer Anfragen
Queue-API verwenden — Für Batch-Workloads nutzen Sie asynchrone Anfragen, um die Last zu verteilen

import time

from openai import OpenAI, RateLimitError

client = OpenAI()

def safe_completion(messages, max_retries=3):
    for attempt in range(max_retries):
        try:
            return client.chat.completions.create(
                model="Llama-3.3-70B-Instruct",
                messages=messages,
            )
        except RateLimitError:
            wait_time = 2 ** attempt
            print(f"Rate limited. Waiting {wait_time}s...")
            time.sleep(wait_time)
    raise Exception("Max retries exceeded")

Höhere Limits benötigt?

Tarif upgraden — Höhere Stufen haben deutlich höhere TPM- und RPM-Limits
Dedizierte Instanzen — Für Enterprise-Workloads kontaktieren Sie uns für dedizierte GPU-Ressourcen mit individuellen Rate-Limits
Kontakt: T-Cloud Marketplace oder wenden Sie sich an das AIFS-Team unter ai@t-systems.com