Zum Inhalt springen

Multimodal (Vision)

AI Foundation Services bietet Vision-Modelle, die Bilder zusammen mit Text analysieren können. Verwenden Sie dieselbe Chat Completions API mit Bildinhalten.

Was Sie lernen werden:

  • Wie Sie Bilder von URLs analysieren
  • Wie Sie lokale Bilder per Base64-Kodierung senden
  • Welche Modelle Vision-Funktionen unterstützen
Terminal-Fenster
curl -X POST "$OPENAI_BASE_URL/chat/completions" \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gemini-2.5-flash",
"messages": [
{
"role": "user",
"content": [
{"type": "text", "text": "What is in this image?"},
{"type": "image_url", "image_url": {"url": "https://images.unsplash.com/photo-1546069901-ba9599a7e63c?w=400"}}
]
}
],
"max_tokens": 1024
}'

Sie können auch ein lokales Bild als Base64-kodierten String übergeben:

import base64
from openai import OpenAI
client = OpenAI()
def encode_image(image_path):
with open(image_path, "rb") as f:
return base64.b64encode(f.read()).decode("utf-8")
base64_image = encode_image("/path/to/your/image.jpg")
response = client.chat.completions.create(
model="Qwen3-VL-30B-A3B-Instruct-FP8",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "What's in this image?"},
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{base64_image}"},
},
],
}
],
max_tokens=1000,
)
print(response.choices[0].message.content)
ModellAnbieterFähigkeiten
Qwen3-VL-30B-A3B-Instruct-FP8T-Cloud (Deutschland)Bildverständnis, OCR
gemini-2.5-flashGoogle CloudBild- + Videoverständnis
gpt-4.1AzureBildverständnis

Die aktuelle Liste finden Sie unter Verfügbare Modelle.

  • Visual RAG — Dokumente mit Text- + Bildverständnis indizieren und abrufen
  • Function Calling — Modelle mit externen Tools verbinden
  • Streaming — Antworten für bessere UX streamen