Zum Inhalt springen

Audio (Speech-to-Text)

Dieser Inhalt ist für v1.1.0. Geh zur neuesten Version, um die aktuellste Dokumentation zu bekommen.

Dieser Inhalt ist noch nicht in deiner Sprache verfügbar.

Whisper-family models for transcription and translation. Available via the POST /audio/transcriptions and POST /audio/translations endpoints.

Anbieter
Cloud
Eingabe
Ausgabe
Streaming-Ausgabe
Tool Calling
Tarife
Zeige 8 von 8 Modellen
Token-für-Token-Ausgabe via Server-Sent Events. Geeignet für niedrige Latenz und Echtzeit-UI. Funktions-/Tool-Aufrufe (OpenAI-kompatibel). Das Modell kann strukturierte Tool-Aufrufe zurückgeben.
Whisper Large v3 OpenAI OpenAI Gehostet auf T-Cloud Public — der souveränen Infrastruktur der Telekom in Deutschland. Audio Text 448 €14.61 €14.61 EssentialProfessionalAgentic
Whisper Large v3 Turbo OpenAI OpenAI Gehostet auf T-Cloud Public — der souveränen Infrastruktur der Telekom in Deutschland. Audio Text 448 €9.21 €9.21 EssentialProfessionalAgentic
Gemini 2.5 Flash Google Google Gehostet auf Google Cloud Platform (EU-Regionen). Text, Bild, Audio Text 1M €0.27 €2.25 EssentialProfessionalAgentic
Gemini 2.5 Pro (>200k) Google Google Gehostet auf Google Cloud Platform (EU-Regionen). Text, Bild, Audio Text 1M €2.25 €13.50 EssentialProfessionalAgentic
Gemini 2.5 Pro (≤200k) Google Google Gehostet auf Google Cloud Platform (EU-Regionen). Text, Bild, Audio Text 200K €1.13 €9.00 EssentialProfessionalAgentic
Gemini 3 Flash Google Google Gehostet auf Google Cloud Platform (EU-Regionen). Text, Bild, Audio Text 1M €0.45 €2.70 EssentialProfessionalAgentic
Gemini 3 Pro (>200k) Google Google Gehostet auf Google Cloud Platform (EU-Regionen). Text, Bild, Audio Text 1M €3.60 €16.20 EssentialProfessionalAgentic
Gemini 3 Pro (≤200k) Google Google Gehostet auf Google Cloud Platform (EU-Regionen). Text, Bild, Audio Text 200K €1.80 €10.80 EssentialProfessionalAgentic