| Ideal für |
Agenten-Orchestrierung, Tool Calling, Structured Output |
Router, Mikro-Tasks, Hochvolumen-Triage |
Premium-Coding, tiefes Reasoning, Rechtsanalyse, Langtext |
Zwischenvalidierung, DSGVO-sicher günstig, semantische Klassifikation |
Native Multimodalität (Audio, Video, Bilder), CAG mit Grounding |
Ultra-günstige Triage und Klassifikation |
Echtzeit-Daten, Social Trends, Live-Event-Analyse |
Riesiger Kontext zu minimalen Kosten |
Höchstvolumen-Tasks zu Quasi-Null-Kosten (V3.2), günstiges mathematisches Reasoning (R1) |
Swarm-Orchestrierung, Sub-Task-Parallelisierung |
Enterprise-Mehrsprachigkeit, Übersetzung in 92 Sprachen |
Ultra-günstige Tasks, Klassifikation, Routing |
Italienische/EU-Workflows, DSGVO-Konformität, Textaufgaben, Tool Calling, Agenten-Orchestrierung |
Long-Chain-Agent-Workflows mit Tool-Calling (nur Text). Günstigere Alternative zu Sonnet für Workflow-Koordination. Nicht DSGVO-konform für EU-Personendaten. |
| Max. Kontext |
1.05M |
1.05M |
1M |
200K |
1M |
1M |
2M |
2M |
128K |
256K |
1M |
1M |
128K (bis zu 1M mit erweiterten Versionen) |
200K |
| Eingabe: Text |
Ja |
Ja |
Ja |
Ja |
Ja |
Ja |
Ja |
Ja |
Ja |
Ja |
Ja |
Ja |
Ja |
Ja |
| Eingabe: Bilder |
Ja |
Ja |
Ja |
Ja |
Ja |
Ja |
Ja |
Ja |
Nein |
Ja |
Ja |
Ja |
Nein (aber integrierbar mit externen Tools) |
Nein |
| Eingabe: Audio |
Ja (Realtime API) |
Nein |
Nein |
Nein |
Ja (nativ, bis zu 9,5h) |
Nein |
Ja (Voice API) |
Nein |
Nein |
Nein |
Ja (Omni) |
Nein |
Nein (aber integrierbar mit externen Tools) |
Nein |
| Eingabe: Video |
Nein |
Nein |
Nein |
Nein |
Ja (nativ) |
Nein |
Nein |
Nein |
Nein |
Nein |
Ja (Omni) |
Nein |
Nein (aber integrierbar mit externen Tools) |
Nein |
| Bilderzeugung |
Ja (gpt-image) |
Nein |
Nein |
Nein |
Ja (inline) |
Nein |
Ja |
Nein |
Nein |
Nein |
Nein |
Nein |
Nein (aber integrierbar mit externen Tools) |
Nein |
| Tool Calling |
Am ausgereiftesten und zuverlässigsten (>95%) |
Ja, Basis |
Ja (Strict Tool Use) |
Ja |
Ja |
Ja |
Ja |
Ja |
Ja (V3.2), Nein (R1 Reasoner) |
Ja (300 Schritte) |
Ja |
Ja |
Ja, fortgeschritten und zuverlässig |
Ja (agentenspezialisiert) |
| Structured Output JSON |
Strict Mode, am robustesten |
Ja |
Ja (GA) |
Ja |
Ja |
Ja |
Ja |
Ja |
Ja |
Ja |
Ja |
Ja |
Ja, Strict Mode |
Ja |
| Coding |
Gut (dedizierter Codex für Agentik) |
Basis |
SWE-bench Leader (80,7%). Der Beste |
Ausreichend |
Gut |
Basis |
Gut |
Basis |
Wettbewerbsfähig zu 1/10 der Kosten |
Gut (Visual Coding) |
Gut (dedizierte Coder-Variante) |
Basis |
Exzellent für Python/JS/SQL, klare Erklärungen |
Hervorragend (SOTA auf SWE-bench, Refactoring/Debugging) |
| Reasoning / Mathematik |
Gut (o4-mini: 99,5% AIME) |
Eingeschränkt |
Exzellent (Adaptive Thinking) |
Ausreichend |
Exzellent (Deep Think) |
Eingeschränkt |
Gut |
Basis |
Exzellent (R1: sichtbare CoT, debugbar) |
Gut |
Gut (dedizierte Math-Variante) |
Eingeschränkt |
Exzellent für logische Probleme, sichtbare CoT |
Gut |
| Übersetzung / Mehrsprachigkeit |
Gut |
Basis |
Gut |
Gut |
Gut (24+ Audio-Sprachen) |
Basis |
Basis |
Basis |
Basis |
Gut (CN/EN) |
Der Beste (92 Sprachen, dediziertes MT) |
Gut |
Exzellent für europäische Sprachen, natürlicher Ton |
Hervorragend (CN/EN, bilingualer Marktführer) |
| Long Context / CAG |
Gut (1M, Strafe über 272K) |
Basis |
Exzellent (1M, Caching -90%) |
200K, ausreichend |
Exzellent (Google Search Grounding) |
Basis |
Bestes Kontext/Preis-Verhältnis (2M) |
Bestes Kontext/Preis-Verhältnis (2M) |
128K, eingeschränkt |
Gut (256K, CAG-spezialisiert) |
Gut (1M) |
Basis |
Gut für RAG, EU-Daten, Kontext bis 128K |
Gut (200K) |
| Echtzeit / Websuche |
Ja (Web Search Tool) |
Nein |
Ja (Beta) |
Nein |
Ja (Google Search Grounding) |
Nein |
Der Beste (X + natives serverseitiges Web) |
Ja (X + Web) |
Nein |
Nein |
Nein |
Nein |
Nein (aber integrierbar mit externen APIs: Twitter, Google Search, etc.) |
Nein |
| Agentische Orchestrierung |
Am vollständigsten (Agents SDK, MCP, Computer Use) |
Basis |
Exzellent (14,5h autonom METR) |
Basis |
Gut |
Basis |
Gut (serverseitige Tools) |
Basis |
Basis |
Am besten für Swarm (100+ parallele Sub-Agenten) |
Gut (adaptives Tool Use) |
Basis |
Ja, parallele Task-Unterstützung via API, einfache Integration mit EU-Stack |
Hervorragend (Long-Chain, persistente Tool-Nutzung) |
| Batch API (-50%) |
Ja |
Ja |
Ja |
Ja |
Ja |
Ja |
Ja |
Ja |
Nein |
Nein |
Ja |
Ja |
Ja |
Ja |
| Prompt Caching |
Ja (auto, ~90% Rabatt) |
Ja |
Ja (-90% bei Cache Hit) |
Ja |
Ja (-90%) |
Ja |
Ja (auto, 75-97%) |
Ja |
Ja (auto, 90%) |
Ja (75%) |
Ja |
Ja |
Ja (bis zu 90% Rabatt bei Hit) |
Ja |
| Fine-Tuning |
Ja (SFT, DPO) |
Ja |
Nein |
Nein |
Ja (Flash) |
Nein |
Nein |
Nein |
Nein |
Nein |
Nein |
Nein |
Ja (Open-Weight, Apache 2.0/MIT) |
Ja (Open-Weight ChatGLM-Varianten) |
| Embeddings |
Ja (nativ) |
Ja |
Nein |
Nein |
Ja (multimodal) |
Ja |
Nein |
Nein |
Nein |
Nein |
Ja |
Ja |
Ja (mehrsprachig, Open-Weight) |
Ja |
| Open-Weight |
Ja (gpt-oss, Apache 2.0) |
Ja |
Nein |
Nein |
Ja (Gemma 3, 1B-27B) |
Ja |
Grok-1 veraltet (Apache 2.0) |
Grok-1 veraltet |
Ja (MIT, 671B MoE) |
Ja (Modified MIT, 1T MoE) |
Ja (Apache 2.0, bis zu 397B) |
Ja (Apache 2.0) |
Ja (Mistral 7B, Mixtral 8x7B, Mistral Large 2, Apache 2.0) |
Ja (frühere Versionen, offene Varianten) |
| OpenAI SDK-Kompatibilität |
Nativ (der Standard) |
Nativ |
Test-Layer, nicht Produktion. Messages API verwenden |
Test-Layer |
Dedizierter Endpoint, fast vollständig |
Dedizierter Endpoint |
Drop-in |
Drop-in |
Drop-in |
Drop-in |
Drop-in (DashScope) |
Drop-in |
Teilweise (kompatibel mit vielen Tools, aber nicht nativ wie OpenAI) |
Drop-in |
| Haupteinschränkungen |
Aggressive Deprecation. Lock-in. Strafe über 272K Tokens |
Eingeschränktes Reasoning |
Am teuersten. Kein Audio/Video/Bilderzeugung. Kein Open-Weight |
200K Kontext. Eingeschränktes Reasoning |
Übermäßiges Safety-Filtering. Preis verdoppelt sich über 200K |
Reduzierte Fähigkeiten |
Junger Anbieter. Unsichere Nachhaltigkeit. Politische Voreingenommenheit |
Ungeeignet für Coding oder Recht |
Daten in China. Keine Vision/Audio. Drosselung. Politische Zensur |
Kein EU-Vertreter. Training mit Nutzerdaten. Unreifes Ökosystem |
Fragmentierte Dokumentation. Chinesisches Recht |
Reduzierte Fähigkeiten |
Kein nativer Audio/Video/Bild-Support; geringerer Kontext als Top-Modelle (aber in schneller Entwicklung) |
Hosting in China, nicht DSGVO-konform, kein multimodaler Input |
| Kosten |
+++ |
+ |
+++++ |
++ |
+++ |
+ |
+++ |
+ |
+ |
++ |
+++ |
+ |
++ |
++ |