API-Endpunkte
AI Foundation Services bietet eine OpenAI-kompatible REST-API. Alle Endpunkte verwenden die Basis-URL:
https://llm-server.llmhub.t-systems.net/v2Die vollständige OpenAPI-Spezifikation finden Sie in der interaktiven API-Dokumentation (Redoc).
Endpunkte
Abschnitt betitelt „Endpunkte“| Methode | Endpunkt | Beschreibung |
|---|---|---|
GET | /models | Alle verfügbaren Modelle auflisten |
GET | /models/{model_id} | Modelldetails und Metadaten abrufen |
POST | /chat/completions | Eine Chat Completion erstellen |
POST | /completions | Eine Text Completion erstellen |
POST | /embeddings | Embeddings erstellen |
POST | /audio/transcriptions | Audio in Text transkribieren |
POST | /audio/translations | Audio ins Englische übersetzen |
GET | /audio/models | Verfügbare Audio-Modelle auflisten |
POST | /images/generations | Bilder aus Text generieren |
POST | /responses | Eine Antwort erstellen (Responses API) |
POST | /fine_tuning/jobs | Einen Fine-Tuning-Auftrag erstellen |
GET | /fine_tuning/jobs | Fine-Tuning-Aufträge auflisten |
POST | /fine_tuning/jobs/{id}/cancel | Einen Fine-Tuning-Auftrag abbrechen |
GET | /fine_tuning/jobs/{id}/events | Fine-Tuning-Ereignisse auflisten |
POST | /files | Eine Datei hochladen |
GET | /files | Hochgeladene Dateien auflisten |
DELETE | /files/{id} | Eine Datei löschen |
Queue-Endpunkte (Asynchron)
Abschnitt betitelt „Queue-Endpunkte (Asynchron)“Alle wichtigen Endpunkte haben /queue-Varianten für asynchrone Verarbeitung. Weitere Details finden Sie im Leitfaden für asynchrone Anfragen.
| Methode | Endpunkt | Beschreibung |
|---|---|---|
POST | /queue/chat/completions | Asynchronous Chat Completion |
POST | /queue/completions | Asynchronous Text Completion |
POST | /queue/embeddings | Asynchronous Embeddings |
POST | /queue/audio/transcriptions | Asynchronous Audio Transcription |
POST | /queue/audio/translations | Asynchronous Audio Translation |
POST | /queue/images/generations | Asynchronous Image Generation |
POST | /queue/images/edits | Asynchronous Image Edit |
GET | /queue/models | Modelle auflisten (Queue) |
API-Versionierung
Abschnitt betitelt „API-Versionierung“Die API verwendet versionierte Pfade:
| Pfad-Präfix | Zweck | Beispiele |
|---|---|---|
/v2 | Standard — LLM-Inferenz, Embeddings, Audio, Bilder | /v2/chat/completions, /v2/embeddings |
/v1 | Visual RAG, Vektorspeicher, Dateiverwaltung | /v1/vector_stores, /v1/files |
/queue | Asynchrone Verarbeitung (spiegelt /v2-Endpunkte) | /queue/chat/completions |
- Verwenden Sie
/v2für alle Standard-LLM-API-Aufrufe (dies ist der Standard bei Verwendung von OpenAI-SDKs mit unserer Basis-URL) - Verwenden Sie
/v1für Visual RAG und Dateiverwaltungsoperationen - Verwenden Sie
/queuefür lang laufende oder Batch-Workloads
Authentifizierung
Abschnitt betitelt „Authentifizierung“Alle Anfragen erfordern einen API-Schlüssel im Authorization-Header:
Authorization: Bearer YOUR_API_KEYWeitere Details zur Einrichtung finden Sie unter Authentifizierung.
Anfrageformat
Abschnitt betitelt „Anfrageformat“Alle POST-Anfragen verwenden JSON:
curl -X POST "https://llm-server.llmhub.t-systems.net/v2/chat/completions" \ -H "Authorization: Bearer $OPENAI_API_KEY" \ -H "Content-Type: application/json" \ -d '{"model": "Llama-3.3-70B-Instruct", "messages": [{"role": "user", "content": "Hello"}]}'Antwortformat
Abschnitt betitelt „Antwortformat“Antworten folgen dem OpenAI-Antwortformat. Für Chat Completions:
{ "id": "chatcmpl-abc123", "object": "chat.completion", "created": 1710000000, "model": "Llama-3.3-70B-Instruct", "choices": [ { "index": 0, "message": { "role": "assistant", "content": "Hello! How can I help you today?" }, "finish_reason": "stop" } ], "usage": { "prompt_tokens": 10, "completion_tokens": 9, "total_tokens": 19 }}