Tarife & Preise

LLM Serving wird in zwei Servicemodellen angeboten. Die Tarife Essential / Professional / Agentic unten gehören zum Shared LLM Serving Service — Multi-Tenant, Pay-as-you-go, Self-Service über den T-Cloud Marketplace und das API-Key Self-Service-Portal, mit Best-Effort-Obergrenzen für RPM und TPM pro Modell. Für Workloads, die vertragliche Performance-Zusagen, private Modelle oder Single-Tenant-Infrastruktur benötigen, siehe Dedicated LLM Serving.

Leistungsbeschreibung (PDF) Offizielles, verbindliches Leistungsbeschreibungs-Dokument.

Shared vs. Dedicated LLM Serving Beide Servicemodelle nebeneinander mit Entscheidungsleitfaden.

Tarife

Wählen Sie den Tarif, der zu Ihren Anforderungen passt. Ein höherer monatlicher Mindestumsatz bedeutet höhere Anfragelimits und Zugriff auf leistungsstärkere Modelle. Sie benötigen eine individuelle Lösung oder ein On-Premises-Hosting? Schreiben Sie uns gerne!

Tarif	Monatlicher Mindestumsatz € / Monat	Input- / Output-Token-Preis € / M Tokens	Beispiel RPM ^* Anfragen/Minute	Modell-Hosting	Modell-Tier
Essential	1,000 €	0.20 / 0.65 †	300 ^*	T-Cloud External	Standard
Professional	3,000 €	0.20 / 0.65 †	600 ^*	T-Cloud External	Standard Premium
Agentic	5,000 €	0.20 / 0.65 †	1,000 ^*	T-Cloud External	Standard Premium
Enterprise	Custom	0.20 / 0.65 †	Custom ^*	T-Cloud External	Standard Premium

† Beispielpreise für T-Cloud-gehostete Large Language Models
Mehr zu Rate-Limits →

Unsere Modelle

Standard-Modelle sind leistungsfähig und auf Geschwindigkeit ausgelegt – zuverlässig für die meisten Anwendungsfälle, ohne Kompromisse bei der Qualität. Premium-Modelle gehen darüber hinaus: für komplexes Reasoning, lange Kontexte und Aufgaben, bei denen die Ausgabequalität im Vordergrund steht.

Gewählter Tarif Suche

Server Location

Cloud-Anbieter

Modell-Tier

Input-Preis

Output-Preis

Zeige 0 von 0 Modellen

Modell-Hosting	Cloud-Anbieter	Modell-Tier	Anbieter	Modellname	Input Token Price M Tokens	Output Token Price M Tokens	Server Location	RPM-Limit ^* Anfragen/Min	TPM ^* Tokens/Min	Context Window Tokens	Links

* EU/EEA includes countries with an adequacy decision by the EU Commission.

Mehr als der Shared Service?

Die Tarife oben sind der richtige Einstieg für die meisten Produktions-Workloads. Dedicated LLM Serving ist die richtige Wahl, wenn eines oder mehrere der folgenden Kriterien zutrifft:

Sie bedienen viele Nutzer mit strikten Latenz-SLAs. Selbst die hohen RPM/TPM-Werte des Agentic-Tarifs sind Best-Effort im Shared Service — es gibt keine vertragliche Zusage für Time-to-First-Token oder End-to-End-Latenz, wenn andere Tenants die Plattformlast erzeugen.
Ihr Workload ist bursty. Kurze Phasen sehr hoher Nachfrage, die ansonsten die Rate-Limit-Obergrenzen des Shared Service erreichen würden.
Sie müssen ein privates, fine-tuned oder kundenspezifisches Modell hosten, das nicht im Shared-Katalog steht.
Ihre Compliance verlangt Single-Tenant-Infrastruktur.
Sie wünschen eine planbare Kostenstruktur — eine feste Gebühr für die reservierte Hardware und den Managed-Inference-Service statt token-basierter Abrechnung.

Was Dedicated LLM Serving bietet

Keine RPM/TPM-Obergrenzen. Der Durchsatz wird ausschließlich durch die reservierte GPU-Hardware begrenzt, nicht durch Pro-Minute-Kontingente.
Deterministische Performance. Keine Konkurrenz durch andere Tenants. Derselbe Prompt erzeugt Lauf für Lauf dasselbe Latenzprofil.
Verhandelbare Performance-SLAs. Anders als der Shared Service — dessen SLA nur die API-Verfügbarkeit abdeckt — können Dedicated-LLM-Serving-Verträge SLAs zu Time-to-First-Token, End-to-End-Latenz, dauerhaftem Durchsatz, 24/7-Support und strengeren Verfügbarkeitszielen enthalten.
Jedes kompatible Modell. Jedes Modell aus dem Shared-T-Cloud-Katalog lässt sich auf einer dedizierten Instanz bereitstellen, ergänzt um eigene private oder fine-tuned Varianten.

Dedicated LLM Serving GPU-Hardware exklusiv für Ihren Vertrag — vollständige Details, Vorteile und Bestellprozess.

Shared vs. Dedicated LLM Serving vergleichen Beide Servicemodelle nebeneinander — Preismodell, SLAs, Performance und Entscheidungsleitfaden.

Dedicated LLM Serving erfordert ein individuelles Angebot und ist nicht über den T-Cloud Marketplace verfügbar. Wenden Sie sich an das AIFS-Team unter ai@t-systems.com für ein Angebot auf Basis Ihres Workload-Profils und Ihrer SLA-Anforderungen.

Servicehinweis zu den veröffentlichten RPM- und TPM-Werten

^* Die in den Tabellen oben gezeigten Werte für Anfragen pro Minute (RPM) und Token pro Minute (TPM) sind Best-Effort-/Best-Case-Obergrenzen im Shared LLM Serving Service. Sie geben den vertraglich maximal zulässigen Verbrauch an — keinen zugesicherten Durchsatz. Es gelten die folgenden Bedingungen:

Diese Werte sind nicht Teil des Service Level Agreements (SLA). Das SLA deckt ausschließlich die API-Verfügbarkeit ab; es erstreckt sich nicht auf Durchsatz, End-to-End-Latenz oder Time-to-First-Token.
Der tatsächlich erreichte Durchsatz, die End-to-End-Latenz und die Time-to-First-Token variieren mit der Plattformlast. Insbesondere können Open-Source-Modelle auf T-Cloud bei hoher gleichzeitiger Nachfrage unterhalb der veröffentlichten Obergrenzen arbeiten.
Kunden, die vertragliche Zusagen zu Durchsatz, End-to-End-Latenz oder Time-to-First-Token benötigen, sollten Dedicated LLM Serving in Betracht ziehen — dort lassen sich solche Zusagen als Performance-SLAs auf reservierter Hardware verhandeln.

Für individuelle Anforderungen wenden Sie sich an das AIFS-Team unter ai@t-systems.com.