Audio (Sprache-zu-Text)
AI Foundation Services bietet Whisper-basierte Audiomodelle fuer Transkription und Uebersetzung, kompatibel mit der OpenAI Audio API.
Was Sie lernen werden:
- Wie Sie Audio in der Originalsprache zu Text transkribieren
- Wie Sie Audio aus beliebigen Sprachen ins Englische uebersetzen
- Verfuegbare Audiomodelle und Parameter
Audiomodelle auflisten
Abschnitt betitelt „Audiomodelle auflisten“Audiomodelle haben model_type: "STT" in ihren Metadaten. Verwenden Sie den Models-Endpunkt und filtern Sie:
from openai import OpenAI
client = OpenAI()
models = client.models.list()for model in models.data: if model.meta_data.get("model_type") == "STT": print(model.id)curl "$OPENAI_BASE_URL/models" \ -H "Authorization: Bearer $OPENAI_API_KEY"# Filter results for models with model_type "STT"# Available audio models: whisper-large-v3, whisper-large-v3-turboAudio Transcription
Abschnitt betitelt „Audio Transcription“Die Transkriptions-API wandelt Audio in Text in derselben Sprache wie die Eingabe um. Sie erkennt die Sprache automatisch aus den ersten 30 Sekunden, wenn language nicht angegeben wird.
from openai import OpenAI
client = OpenAI()
with open("/path/to/audio_file.mp3", "rb") as audio_file: transcription = client.audio.transcriptions.create( model="whisper-large-v3", file=audio_file, # language="en" # Optional: specify language )
print(f"Transcription: {transcription.text}")curl -X POST "$OPENAI_BASE_URL/audio/transcriptions" \ -H "Authorization: Bearer $OPENAI_API_KEY" \ -F "model=whisper-large-v3" \ -F "language=en" \ -F "temperature=0.0" \ -F "file=@/path/to/audio_file.mp3"Beispielausgabe:
Transcription: The stale smell of old beer lingers. It takes heat to bring out the odor.A cold dip restores health and zest. A salt pickle tastes fine with ham.Audio Translation
Abschnitt betitelt „Audio Translation“Die Uebersetzungs-API uebersetzt Audio aus beliebigen Sprachen ins Englische.
from openai import OpenAI
client = OpenAI()
with open("/path/to/audio_file.mp3", "rb") as audio_file: translation = client.audio.translations.create( model="whisper-large-v3", file=audio_file, temperature=1.0, )
print(f"Translation: {translation.text}")curl -X POST "$OPENAI_BASE_URL/audio/translations" \ -H "Authorization: Bearer $OPENAI_API_KEY" \ -F "model=whisper-large-v3" \ -F "temperature=1.0" \ -F "file=@/path/to/audio_file.mp3"Parameter
Abschnitt betitelt „Parameter“| Parameter | Typ | Beschreibung |
|---|---|---|
model | string | Audiomodell-ID (z.B. whisper-large-v3) |
file | file | Die zu verarbeitende Audiodatei |
language | string | Optional. ISO-Sprachcode. Wird automatisch erkannt, wenn nicht angegeben. |
temperature | float | 0.0 fuer deterministische Ergebnisse, hoeher fuer variablere Ausgabe |
Wichtige Funktionen
Abschnitt betitelt „Wichtige Funktionen“- Automatische Spracherkennung — Erkennt die Eingabesprache aus den ersten 30 Sekunden
- Anpassbare Ausgabe — Verhalten mit
language- undtemperature-Parametern anpassen - Effiziente Verarbeitung — Geringe Latenz fuer Transkription und Uebersetzung
Naechste Schritte
Abschnitt betitelt „Naechste Schritte“- Chat Completions — Transkribierten Text mit LLMs verarbeiten
- Asynchronous Requests — Lange Audiodateien zur asynchronen Verarbeitung einreihen
- API-Endpunkte — Vollstaendige Endpunkt-Referenz