Comparatif LLM via API — Avril 2026

Faites défiler horizontalement pour voir tous les modèles
OpenAI Anthropic Google xAI DeepSeek Moonshot Alibaba Mistral Zhipu AI
GPT-5.4 GPT-5.4-nano Claude Opus 4.6 Claude Haiku 4.5 Gemini 2.5 Pro Gemini Flash-Lite Grok 4.20 Grok 4.1 Fast V3.2 / R1 Kimi K2.5 Qwen Plus Qwen Flash Le Chat GLM-5-Turbo
Idéal pour Orchestration d'agents, tool calling, structured output Routeur, micro-tâche, triage à haut volume Coding premium, raisonnement profond, analyse juridique, rédaction longue Validation intermédiaire, RGPD-safe économique, classification sémantique Multimodalité native (audio, vidéo, images), CAG avec grounding Triage et classification ultra-économiques Données temps réel, tendances sociales, analyse d'événements live Contexte énorme à coût minimal Tâches à très haut volume à coût quasi nul (V3.2), raisonnement mathématique économique (R1) Orchestration swarm, parallélisation de sous-tâches Multilingue entreprise, traduction 92 langues Tâches ultra-économiques, classification, routage Workflows italien/UE, conformité RGPD, tâches textuelles, tool calling, orchestration d'agents Workflows agentiques long-chain avec tool calling (texte seul). Alternative économique à Sonnet pour la coordination de workflows. Non conforme RGPD pour données personnelles UE.
Contexte max 1.05M 1.05M 1M 200K 1M 1M 2M 2M 128K 256K 1M 1M 128K (jusqu'à 1M avec versions avancées) 200K
Entrée : texte Oui Oui Oui Oui Oui Oui Oui Oui Oui Oui Oui Oui Oui Oui
Entrée : images Oui Oui Oui Oui Oui Oui Oui Oui Non Oui Oui Oui Non (mais intégrable avec des outils externes) Non
Entrée : audio Oui (Realtime API) Non Non Non Oui (natif, jusqu'à 9,5h) Non Oui (Voice API) Non Non Non Oui (Omni) Non Non (mais intégrable avec des outils externes) Non
Entrée : vidéo Non Non Non Non Oui (natif) Non Non Non Non Non Oui (Omni) Non Non (mais intégrable avec des outils externes) Non
Génération d'images Oui (gpt-image) Non Non Non Oui (inline) Non Oui Non Non Non Non Non Non (mais intégrable avec des outils externes) Non
Tool calling Le plus mature et fiable (>95%) Oui, basique Oui (strict tool use) Oui Oui Oui Oui Oui Oui (V3.2), Non (R1 reasoner) Oui (300 étapes) Oui Oui Oui, avancé et fiable Oui (spécialisé pour agents)
Structured output JSON Strict mode, le plus robuste Oui Oui (GA) Oui Oui Oui Oui Oui Oui Oui Oui Oui Oui, mode strict Oui
Coding Bon (Codex dédié pour agentique) Basique Leader SWE-bench (80.7%). Le meilleur Suffisant Bon Basique Bon Basique Compétitif à 1/10 du coût Bon (visual coding) Bon (variante Coder dédiée) Basique Excellent pour Python/JS/SQL, explications claires Excellent (SOTA sur SWE-bench, refactoring/débogage)
Reasoning / Math Bon (o4-mini : 99,5% AIME) Limité Excellent (adaptive thinking) Suffisant Excellent (Deep Think) Limité Bon Basique Excellent (R1 : CoT visible, debuggable) Bon Bon (variante Math dédiée) Limité Excellent pour problèmes logiques, CoT visible Bon
Traduction / Multilingue Bon Basique Bon Bon Bon (24+ langues audio) Basique Basique Basique Basique Bon (CN/EN) Le meilleur (92 langues, MT dédié) Bon Excellent pour les langues européennes, ton naturel Excellent (CN/EN, leader bilingue)
Long context / CAG Bon (1M, pénalité au-delà de 272K) Basique Excellent (1M, caching -90%) 200K, suffisant Excellent (grounding Google Search) Basique Meilleur rapport contexte/prix (2M) Meilleur rapport contexte/prix (2M) 128K, limité Bon (256K, spécialisé CAG) Bon (1M) Basique Bon pour RAG, données UE, contexte jusqu'à 128K Bon (200K)
Temps réel / Recherche web Oui (web search tool) Non Oui (bêta) Non Oui (grounding Google Search) Non Le meilleur (X + web natif côté serveur) Oui (X + web) Non Non Non Non Non (mais intégrable avec des API externes : Twitter, Google Search, etc.) Non
Orchestration agentique La plus complète (Agents SDK, MCP, computer use) Basique Excellent (14,5h autonomes METR) Basique Bonne Basique Bonne (tools côté serveur) Basique Basique La meilleure pour swarm (100+ sous-agents parallèles) Bonne (tool use adaptatif) Basique Oui, support tâches parallèles via API, intégration facile avec stack UE Excellent (long-chain, usage persistant des outils)
Batch API (-50%) Oui Oui Oui Oui Oui Oui Oui Oui Non Non Oui Oui Oui Oui
Prompt caching Oui (auto, ~90% réduction) Oui Oui (-90% sur cache hit) Oui Oui (-90%) Oui Oui (auto, 75-97%) Oui Oui (auto, 90%) Oui (75%) Oui Oui Oui (jusqu'à 90% de réduction sur hit) Oui
Fine-tuning Oui (SFT, DPO) Oui Non Non Oui (Flash) Non Non Non Non Non Non Non Oui (open-weight, Apache 2.0/MIT) Oui (variantes open-weight ChatGLM)
Embeddings Oui (natifs) Oui Non Non Oui (multimodaux) Oui Non Non Non Non Oui Oui Oui (multilingue, open-weight) Oui
Open-weight Oui (gpt-oss, Apache 2.0) Oui Non Non Oui (Gemma 3, 1B-27B) Oui Grok-1 obsolète (Apache 2.0) Grok-1 obsolète Oui (MIT, 671B MoE) Oui (Modified MIT, 1T MoE) Oui (Apache 2.0, jusqu'à 397B) Oui (Apache 2.0) Oui (Mistral 7B, Mixtral 8x7B, Mistral Large 2, Apache 2.0) Oui (versions précédentes, variantes ouvertes)
Compatibilité OpenAI SDK Natif (c'est le standard) Natif Couche test, pas production. Utiliser Messages API Couche test Endpoint dédié, quasi complet Endpoint dédié Drop-in Drop-in Drop-in Drop-in Drop-in (DashScope) Drop-in Partiel (compatible avec de nombreux outils, mais pas natif comme OpenAI) Drop-in
Limites principales Dépréciation agressive. Lock-in. Pénalité au-delà de 272K tokens Raisonnement limité Le plus cher. Pas d'audio/vidéo/image gen. Pas d'open-weight Contexte 200K. Raisonnement limité Filtrage de sécurité excessif. Prix double au-delà de 200K Capacités réduites Fournisseur jeune. Durabilité incertaine. Biais politiques Inadapté au coding ou juridique Données en Chine. Pas de vision/audio. Throttling. Censure politique Aucun représentant UE. Entraînement sur données utilisateurs. Écosystème immature Documentation fragmentée. Droit chinois Capacités réduites Aucun support natif audio/vidéo/images ; contexte inférieur aux top modèles (mais en rapide évolution) Hébergement en Chine, non conforme RGPD, pas d'entrée multimodale
Coût +++ + +++++ ++ +++ + +++ + + ++ +++ + ++ ++

Légende des coûts

+ ultra-économique ++ économique +++ moyen ++++ cher +++++ premium

RGPD / Conformité UE

Fournisseur Hébergement UE DPA Résidence des données Risque Notes
Mistral Oui Oui UE (France, Paris) Faible Données traitées exclusivement dans l'UE. Siège social à Paris. Politiques de confidentialité conformes au RGPD by design. Aucun transfert de données hors UE.
Anthropic Oui (via AWS Bedrock) Oui UE via AWS eu-west (Bedrock) Moyen L'API directe traite aux US. La résidence UE nécessite AWS Bedrock en région UE. Claude est le seul LLM à déclarer ses propres limites.
Google Oui (via Vertex AI) Oui UE via Vertex AI (europe-west) Moyen Vertex AI payant pour la résidence UE. AI Studio traite globalement. Le prix double au-delà de 200K tokens sur Vertex.
OpenAI Oui (via Azure) Oui UE via Azure West Europe Moyen L'API directe traite aux US. La résidence UE nécessite Azure OpenAI Service. Dépréciation agressive des modèles.
Alibaba (Qwen) Partiel (DashScope depuis Singapour/US) Limité Singapour / US Élevé API DashScope depuis Singapour/US. Self-hosted UE possible avec poids Apache 2.0 (jusqu'à 397B). Soumis au droit chinois. Documentation fragmentée.
xAI Non Oui (sur demande) Basé aux US Élevé Aucune option d'hébergement UE. DPA disponible sur demande. Fournisseur jeune, durabilité incertaine. Biais politiques possibles dans les données d'entraînement (X/Twitter).
DeepSeek Non (self-hosted uniquement) Non Chine Critique Données traitées et stockées en Chine. Interdit par le Garante italien. Soumis aux lois chinoises de sécurité nationale. Seule option RGPD-safe : self-hosted UE avec poids ouverts (MIT). Censure politique active.
Moonshot (Kimi) Non (self-hosted uniquement) Non Chine / Singapour Critique Aucun représentant UE. Entraînement déclaré sur les données utilisateurs. Écosystème immature. Seule option RGPD-safe : self-hosted UE avec poids ouverts (Modified MIT, 1T MoE).
Zhipu AI (GLM) Non (uniquement self-hosted) Non Chine Critique Données traitées et stockées en Chine. Soumis aux lois chinoises sur la sécurité nationale. Self-hosting UE possible via variantes open-weight ChatGLM. Censure politique active.