Zum Inhalt springen

Chat Completions

Die Chat Completions API ist die primäre Methode zur Interaktion mit LLMs auf AI Foundation Services. Sie ist vollständig kompatibel mit der OpenAI Chat API.

Was Sie lernen werden:

  • Wie Sie Chat-Completion-Anfragen mit System- und Benutzernachrichten senden
  • Wie Sie Streaming für Echtzeit-Antworten nutzen
  • Wie Sie die Completion- und Responses-APIs verwenden
  • Wichtige Parameter zur Steuerung der Ausgabe
Terminal-Fenster
curl -X POST "$OPENAI_BASE_URL/chat/completions" \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "Llama-3.3-70B-Instruct",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "What is T-Cloud?"}
],
"temperature": 0.1,
"max_tokens": 256
}'

Aktivieren Sie Streaming, um Token zu empfangen, während sie generiert werden. Setzen Sie stream: true in Ihrer Anfrage:

stream = client.chat.completions.create(
model="Llama-3.3-70B-Instruct",
messages=[{"role": "user", "content": "Write a short poem about AI."}],
stream=True,
)
for chunk in stream:
if chunk.choices and chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="", flush=True)

Die vollständige Streaming-Dokumentation einschließlich Fehlerbehandlung, Function Calling mit Streams und Stream-Optionen finden Sie im Streaming-Leitfaden.

Die Completion API sendet Rohtext direkt an das LLM, ohne das Chat-Nachrichtenformat zu verwenden.

from openai import OpenAI
client = OpenAI()
completion = client.completions.create(
model="Llama-3.3-70B-Instruct",
prompt="What is the Python programming language?",
stream=False,
temperature=0.2,
max_tokens=128,
)
print(completion.choices[0].text)

Mit einer aktuellen Version des OpenAI Python-Pakets können Sie die Responses API verwenden:

from openai import OpenAI
client = OpenAI()
response = client.responses.create(
model="gpt-4.1",
input="Write a one-sentence bedtime story about a unicorn.",
)
print(response.output_text)

Sie können auch die Felder input und instructions gemeinsam verwenden:

response = client.responses.create(
model="gpt-4.1",
instructions="You are a professional copywriter. Focus on benefits rather than features.",
input="Create a product description for NoiseGuard Pro Headphones.",
temperature=0.7,
max_output_tokens=200,
)
print(response.output[0].content[0].text)
ParameterTypBeschreibung
modelstringModell-ID (z. B. Llama-3.3-70B-Instruct)
messagesarrayListe von Nachrichtenobjekten mit role und content
temperaturefloatSampling-Temperatur (0-2). Niedriger = deterministischer
max_tokensintegerMaximale Anzahl zu generierender Token
streambooleanStreaming-Antworten aktivieren
top_pfloatNucleus-Sampling-Parameter

Die vollständige API-Spezifikation finden Sie in der API-Referenz.