Zum Inhalt springen

API-Endpunkte

AI Foundation Services bietet eine OpenAI-kompatible REST-API. Alle Endpunkte verwenden die Basis-URL:

https://llm-server.llmhub.t-systems.net/v2

Die vollständige OpenAPI-Spezifikation finden Sie in der interaktiven API-Dokumentation (Redoc).

MethodeEndpunktBeschreibung
GET/modelsAlle verfügbaren Modelle auflisten
GET/models/{model_id}Modelldetails und Metadaten abrufen
POST/chat/completionsEine Chat Completion erstellen
POST/completionsEine Text Completion erstellen
POST/embeddingsEmbeddings erstellen
POST/audio/transcriptionsAudio in Text transkribieren
POST/audio/translationsAudio ins Englische übersetzen
GET/audio/modelsVerfügbare Audio-Modelle auflisten
POST/images/generationsBilder aus Text generieren
POST/responsesEine Antwort erstellen (Responses API)
POST/fine_tuning/jobsEinen Fine-Tuning-Auftrag erstellen
GET/fine_tuning/jobsFine-Tuning-Aufträge auflisten
POST/fine_tuning/jobs/{id}/cancelEinen Fine-Tuning-Auftrag abbrechen
GET/fine_tuning/jobs/{id}/eventsFine-Tuning-Ereignisse auflisten
POST/filesEine Datei hochladen
GET/filesHochgeladene Dateien auflisten
DELETE/files/{id}Eine Datei löschen

Alle wichtigen Endpunkte haben /queue-Varianten für asynchrone Verarbeitung. Weitere Details finden Sie im Leitfaden für asynchrone Anfragen.

MethodeEndpunktBeschreibung
POST/queue/chat/completionsAsynchronous Chat Completion
POST/queue/completionsAsynchronous Text Completion
POST/queue/embeddingsAsynchronous Embeddings
POST/queue/audio/transcriptionsAsynchronous Audio Transcription
POST/queue/audio/translationsAsynchronous Audio Translation
POST/queue/images/generationsAsynchronous Image Generation
POST/queue/images/editsAsynchronous Image Edit
GET/queue/modelsModelle auflisten (Queue)

Die API verwendet versionierte Pfade:

Pfad-PräfixZweckBeispiele
/v2Standard — LLM-Inferenz, Embeddings, Audio, Bilder/v2/chat/completions, /v2/embeddings
/v1Visual RAG, Vektorspeicher, Dateiverwaltung/v1/vector_stores, /v1/files
/queueAsynchrone Verarbeitung (spiegelt /v2-Endpunkte)/queue/chat/completions
  • Verwenden Sie /v2 für alle Standard-LLM-API-Aufrufe (dies ist der Standard bei Verwendung von OpenAI-SDKs mit unserer Basis-URL)
  • Verwenden Sie /v1 für Visual RAG und Dateiverwaltungsoperationen
  • Verwenden Sie /queue für lang laufende oder Batch-Workloads

Alle Anfragen erfordern einen API-Schlüssel im Authorization-Header:

Authorization: Bearer YOUR_API_KEY

Weitere Details zur Einrichtung finden Sie unter Authentifizierung.

Alle POST-Anfragen verwenden JSON:

Terminal-Fenster
curl -X POST "https://llm-server.llmhub.t-systems.net/v2/chat/completions" \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{"model": "Llama-3.3-70B-Instruct", "messages": [{"role": "user", "content": "Hello"}]}'

Antworten folgen dem OpenAI-Antwortformat. Für Chat Completions:

{
"id": "chatcmpl-abc123",
"object": "chat.completion",
"created": 1710000000,
"model": "Llama-3.3-70B-Instruct",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"content": "Hello! How can I help you today?"
},
"finish_reason": "stop"
}
],
"usage": {
"prompt_tokens": 10,
"completion_tokens": 9,
"total_tokens": 19
}
}