Chat Completions

Die Chat Completions API ist die primäre Methode zur Interaktion mit LLMs auf AI Foundation Services. Sie ist vollständig kompatibel mit der OpenAI Chat API.

Was Sie lernen werden:

Wie Sie Chat-Completion-Anfragen mit System- und Benutzernachrichten senden
Wie Sie Streaming für Echtzeit-Antworten nutzen
Wie Sie die Completion- und Responses-APIs verwenden
Wichtige Parameter zur Steuerung der Ausgabe

Grundlegende Verwendung

curl -X POST "$OPENAI_BASE_URL/chat/completions" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Llama-3.3-70B-Instruct",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "What is T-Cloud?"}
    ],
    "temperature": 0.1,
    "max_tokens": 256
  }'

from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
    model="Llama-3.3-70B-Instruct",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "What is T-Cloud?"},
    ],
    temperature=0.1,
    max_tokens=256,
)

print(response.choices[0].message.content)

import OpenAI from "openai";

const client = new OpenAI();

const response = await client.chat.completions.create({
  model: "Llama-3.3-70B-Instruct",
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "What is T-Cloud?" },
  ],
  temperature: 0.1,
  max_tokens: 256,
});

console.log(response.choices[0].message.content);

Streaming

Aktivieren Sie Streaming, um Token zu empfangen, während sie generiert werden. Setzen Sie stream: true in Ihrer Anfrage:

stream = client.chat.completions.create(
    model="Llama-3.3-70B-Instruct",
    messages=[{"role": "user", "content": "Write a short poem about AI."}],
    stream=True,
)

for chunk in stream:
    if chunk.choices and chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

Die vollständige Streaming-Dokumentation einschließlich Fehlerbehandlung, Function Calling mit Streams und Stream-Optionen finden Sie im Streaming-Leitfaden.

Completion API

Die Completion API sendet Rohtext direkt an das LLM, ohne das Chat-Nachrichtenformat zu verwenden.

Python

from openai import OpenAI

client = OpenAI()

completion = client.completions.create(
    model="Llama-3.3-70B-Instruct",
    prompt="What is the Python programming language?",
    stream=False,
    temperature=0.2,
    max_tokens=128,
)

print(completion.choices[0].text)

Response API

Mit einer aktuellen Version des OpenAI Python-Pakets können Sie die Responses API verwenden:

Python

from openai import OpenAI

client = OpenAI()

response = client.responses.create(
    model="gpt-4.1",
    input="Write a one-sentence bedtime story about a unicorn.",
)

print(response.output_text)

Sie können auch die Felder input und instructions gemeinsam verwenden:

response = client.responses.create(
    model="gpt-4.1",
    instructions="You are a professional copywriter. Focus on benefits rather than features.",
    input="Create a product description for NoiseGuard Pro Headphones.",
    temperature=0.7,
    max_output_tokens=200,
)

print(response.output[0].content[0].text)

Parameter

Parameter	Typ	Beschreibung
`model`	string	Modell-ID (z. B. `Llama-3.3-70B-Instruct`)
`messages`	array	Liste von Nachrichtenobjekten mit `role` und `content`
`temperature`	float	Sampling-Temperatur (0-2). Niedriger = deterministischer
`max_tokens`	integer	Maximale Anzahl zu generierender Token
`stream`	boolean	Streaming-Antworten aktivieren
`top_p`	float	Nucleus-Sampling-Parameter

Die vollständige API-Spezifikation finden Sie in der API-Referenz.

Nächste Schritte

Streaming — Antworten Token für Token streamen
Function Calling — Modelle mit externen Tools verbinden
Multimodal — Bilder zusammen mit Text analysieren
Asynchronous Requests — Warteschlangenbasierte Verarbeitung für Batch-Workloads