Zum Inhalt springen

Audio (Sprache-zu-Text)

AI Foundation Services bietet Whisper-basierte Audiomodelle fuer Transkription und Uebersetzung, kompatibel mit der OpenAI Audio API.

Was Sie lernen werden:

  • Wie Sie Audio in der Originalsprache zu Text transkribieren
  • Wie Sie Audio aus beliebigen Sprachen ins Englische uebersetzen
  • Verfuegbare Audiomodelle und Parameter

Audiomodelle haben model_type: "STT" in ihren Metadaten. Verwenden Sie den Models-Endpunkt und filtern Sie:

from openai import OpenAI
client = OpenAI()
models = client.models.list()
for model in models.data:
if model.meta_data.get("model_type") == "STT":
print(model.id)

Die Transkriptions-API wandelt Audio in Text in derselben Sprache wie die Eingabe um. Sie erkennt die Sprache automatisch aus den ersten 30 Sekunden, wenn language nicht angegeben wird.

from openai import OpenAI
client = OpenAI()
with open("/path/to/audio_file.mp3", "rb") as audio_file:
transcription = client.audio.transcriptions.create(
model="whisper-large-v3",
file=audio_file,
# language="en" # Optional: specify language
)
print(f"Transcription: {transcription.text}")

Beispielausgabe:

Transcription: The stale smell of old beer lingers. It takes heat to bring out the odor.
A cold dip restores health and zest. A salt pickle tastes fine with ham.

Die Uebersetzungs-API uebersetzt Audio aus beliebigen Sprachen ins Englische.

from openai import OpenAI
client = OpenAI()
with open("/path/to/audio_file.mp3", "rb") as audio_file:
translation = client.audio.translations.create(
model="whisper-large-v3",
file=audio_file,
temperature=1.0,
)
print(f"Translation: {translation.text}")
ParameterTypBeschreibung
modelstringAudiomodell-ID (z.B. whisper-large-v3)
filefileDie zu verarbeitende Audiodatei
languagestringOptional. ISO-Sprachcode. Wird automatisch erkannt, wenn nicht angegeben.
temperaturefloat0.0 fuer deterministische Ergebnisse, hoeher fuer variablere Ausgabe
  1. Automatische Spracherkennung — Erkennt die Eingabesprache aus den ersten 30 Sekunden
  2. Anpassbare Ausgabe — Verhalten mit language- und temperature-Parametern anpassen
  3. Effiziente Verarbeitung — Geringe Latenz fuer Transkription und Uebersetzung