Tarife & Preise
LLM Serving wird in zwei Servicemodellen angeboten. Die Tarife Essential / Professional / Agentic unten gehören zum Shared LLM Serving Service — Multi-Tenant, Pay-as-you-go, Self-Service über den T-Cloud Marketplace und das API-Key Self-Service-Portal, mit Best-Effort-Obergrenzen für RPM und TPM pro Modell. Für Workloads, die vertragliche Performance-Zusagen, private Modelle oder Single-Tenant-Infrastruktur benötigen, siehe Dedicated LLM Serving.
Tarife
Wählen Sie den Tarif, der zu Ihren Anforderungen passt. Ein höherer monatlicher Mindestumsatz bedeutet höhere Anfragelimits und Zugriff auf leistungsstärkere Modelle. Sie benötigen eine individuelle Lösung oder ein On-Premises-Hosting? Schreiben Sie uns gerne!
| Tarif | Monatlicher Mindestumsatz € / Monat | Input- / Output-Token-Preis € / M Tokens | Beispiel RPM * Anfragen/Minute | Modell-Hosting | Modell-Tier |
|---|---|---|---|---|---|
| Essential | 1,000 € | 0.20 / 0.65 † | 300 * | T-Cloud Gehostet auf der souveränen Infrastruktur der Telekom. External Gehostet bei Drittanbietern wie Microsoft Azure oder Google Cloud Platform. | Standard Leistungsfähige, schnelle und zuverlässige Modelle für die meisten Aufgaben. |
| Professional | 3,000 € | 0.20 / 0.65 † | 600 * | T-Cloud Gehostet auf der souveränen Infrastruktur der Telekom. External Gehostet bei Drittanbietern wie Microsoft Azure oder Google Cloud Platform. | Standard Leistungsfähige, schnelle und zuverlässige Modelle für die meisten Aufgaben. Premium Leistungsstarke Modelle mit hoher Qualität für komplexe und kritische Anwendungsfälle. |
| Agentic | 5,000 € | 0.20 / 0.65 † | 1,000 * | T-Cloud Gehostet auf der souveränen Infrastruktur der Telekom. External Gehostet bei Drittanbietern wie Microsoft Azure oder Google Cloud Platform. | Standard Leistungsfähige, schnelle und zuverlässige Modelle für die meisten Aufgaben. Premium Leistungsstarke Modelle mit hoher Qualität für komplexe und kritische Anwendungsfälle. |
| Enterprise | Custom | 0.20 / 0.65 † | Custom * | T-Cloud Gehostet auf der souveränen Infrastruktur der Telekom. External Gehostet bei Drittanbietern wie Microsoft Azure oder Google Cloud Platform. | Standard Leistungsfähige, schnelle und zuverlässige Modelle für die meisten Aufgaben. Premium Leistungsstarke Modelle mit hoher Qualität für komplexe und kritische Anwendungsfälle. |
Mehr zu Rate-Limits →
Unsere Modelle
Standard-Modelle sind leistungsfähig und auf Geschwindigkeit ausgelegt – zuverlässig für die meisten Anwendungsfälle, ohne Kompromisse bei der Qualität. Premium-Modelle gehen darüber hinaus: für komplexes Reasoning, lange Kontexte und Aufgaben, bei denen die Ausgabequalität im Vordergrund steht.
Mehr als der Shared Service?
Abschnitt betitelt „Mehr als der Shared Service?“Die Tarife oben sind der richtige Einstieg für die meisten Produktions-Workloads. Dedicated LLM Serving ist die richtige Wahl, wenn eines oder mehrere der folgenden Kriterien zutrifft:
- Sie bedienen viele Nutzer mit strikten Latenz-SLAs. Selbst die hohen RPM/TPM-Werte des Agentic-Tarifs sind Best-Effort im Shared Service — es gibt keine vertragliche Zusage für Time-to-First-Token oder End-to-End-Latenz, wenn andere Tenants die Plattformlast erzeugen.
- Ihr Workload ist bursty. Kurze Phasen sehr hoher Nachfrage, die ansonsten die Rate-Limit-Obergrenzen des Shared Service erreichen würden.
- Sie müssen ein privates, fine-tuned oder kundenspezifisches Modell hosten, das nicht im Shared-Katalog steht.
- Ihre Compliance verlangt Single-Tenant-Infrastruktur.
- Sie wünschen eine planbare Kostenstruktur — eine feste Gebühr für die reservierte Hardware und den Managed-Inference-Service statt token-basierter Abrechnung.
Was Dedicated LLM Serving bietet
Abschnitt betitelt „Was Dedicated LLM Serving bietet“- Keine RPM/TPM-Obergrenzen. Der Durchsatz wird ausschließlich durch die reservierte GPU-Hardware begrenzt, nicht durch Pro-Minute-Kontingente.
- Deterministische Performance. Keine Konkurrenz durch andere Tenants. Derselbe Prompt erzeugt Lauf für Lauf dasselbe Latenzprofil.
- Verhandelbare Performance-SLAs. Anders als der Shared Service — dessen SLA nur die API-Verfügbarkeit abdeckt — können Dedicated-LLM-Serving-Verträge SLAs zu Time-to-First-Token, End-to-End-Latenz, dauerhaftem Durchsatz, 24/7-Support und strengeren Verfügbarkeitszielen enthalten.
- Jedes kompatible Modell. Jedes Modell aus dem Shared-T-Cloud-Katalog lässt sich auf einer dedizierten Instanz bereitstellen, ergänzt um eigene private oder fine-tuned Varianten.
Dedicated LLM Serving erfordert ein individuelles Angebot und ist nicht über den T-Cloud Marketplace verfügbar. Wenden Sie sich an das AIFS-Team unter ai@t-systems.com für ein Angebot auf Basis Ihres Workload-Profils und Ihrer SLA-Anforderungen.
Servicehinweis zu den veröffentlichten RPM- und TPM-Werten
Abschnitt betitelt „Servicehinweis zu den veröffentlichten RPM- und TPM-Werten“* Die in den Tabellen oben gezeigten Werte für Anfragen pro Minute (RPM) und Token pro Minute (TPM) sind Best-Effort-/Best-Case-Obergrenzen im Shared LLM Serving Service. Sie geben den vertraglich maximal zulässigen Verbrauch an — keinen zugesicherten Durchsatz. Es gelten die folgenden Bedingungen:
- Diese Werte sind nicht Teil des Service Level Agreements (SLA). Das SLA deckt ausschließlich die API-Verfügbarkeit ab; es erstreckt sich nicht auf Durchsatz, End-to-End-Latenz oder Time-to-First-Token.
- Der tatsächlich erreichte Durchsatz, die End-to-End-Latenz und die Time-to-First-Token variieren mit der Plattformlast. Insbesondere können Open-Source-Modelle auf T-Cloud bei hoher gleichzeitiger Nachfrage unterhalb der veröffentlichten Obergrenzen arbeiten.
- Kunden, die vertragliche Zusagen zu Durchsatz, End-to-End-Latenz oder Time-to-First-Token benötigen, sollten Dedicated LLM Serving in Betracht ziehen — dort lassen sich solche Zusagen als Performance-SLAs auf reservierter Hardware verhandeln.
Für individuelle Anforderungen wenden Sie sich an das AIFS-Team unter ai@t-systems.com.