Comparativa LLM vía API — Abril 2026

Desplázate horizontalmente para ver todos los modelos
OpenAI Anthropic Google xAI DeepSeek Moonshot Alibaba Mistral Zhipu AI
GPT-5.4 GPT-5.4-nano Claude Opus 4.6 Claude Haiku 4.5 Gemini 2.5 Pro Gemini Flash-Lite Grok 4.20 Grok 4.1 Fast V3.2 / R1 Kimi K2.5 Qwen Plus Qwen Flash Le Chat GLM-5-Turbo
Ideal para Orquestación de agentes, tool calling, structured output Router, micro-tareas, triaje de alto volumen Coding premium, razonamiento profundo, análisis legal, escritura larga Validación intermedia, RGPD-safe económico, clasificación semántica Multimodalidad nativa (audio, vídeo, imágenes), CAG con grounding Triaje y clasificación ultra-económicos Datos en tiempo real, tendencias sociales, análisis de eventos en vivo Contexto enorme a coste mínimo Tareas de altísimo volumen a coste casi cero (V3.2), razonamiento matemático económico (R1) Orquestación swarm, paralelización de sub-tareas Multilingüe enterprise, traducción en 92 idiomas Tareas ultra-económicas, clasificación, routing Workflows italiano/UE, cumplimiento RGPD, tareas textuales, tool calling, orquestación de agentes Flujos agentivos de cadena larga con tool calling (solo texto). Alternativa más económica a Sonnet para coordinación de workflows. No apto para datos personales UE.
Contexto máx. 1.05M 1.05M 1M 200K 1M 1M 2M 2M 128K 256K 1M 1M 128K (hasta 1M con versiones avanzadas) 200K
Entrada: texto
Entrada: imágenes No No (pero integrable con herramientas externas) No
Entrada: audio Sí (Realtime API) No No No Sí (nativo, hasta 9,5h) No Sí (Voice API) No No No Sí (Omni) No No (pero integrable con herramientas externas) No
Entrada: vídeo No No No No Sí (nativo) No No No No No Sí (Omni) No No (pero integrable con herramientas externas) No
Generación de imágenes Sí (gpt-image) No No No Sí (inline) No No No No No No No (pero integrable con herramientas externas) No
Tool calling El más maduro y fiable (>95%) Sí, básico Sí (strict tool use) Sí (V3.2), No (R1 reasoner) Sí (300 pasos) Sí, avanzado y fiable Sí (especializado en agentes)
Structured output JSON Strict mode, el más robusto Sí (GA) Sí, modo strict
Coding Bueno (Codex dedicado para agéntico) Básico Líder SWE-bench (80,7%). El mejor Suficiente Bueno Básico Bueno Básico Competitivo a 1/10 del coste Bueno (visual coding) Bueno (variante Coder dedicada) Básico Excelente para Python/JS/SQL, explicaciones claras Excelente (SOTA en SWE-bench, refactoring/depuración)
Reasoning / Matemáticas Bueno (o4-mini: 99,5% AIME) Limitado Excelente (adaptive thinking) Suficiente Excelente (Deep Think) Limitado Bueno Básico Excelente (R1: CoT visible, debuggable) Bueno Bueno (variante Math dedicada) Limitado Excelente para problemas lógicos, CoT visible Bueno
Traducción / Multilingüe Bueno Básico Bueno Bueno Bueno (24+ idiomas audio) Básico Básico Básico Básico Bueno (CN/EN) El mejor (92 idiomas, MT dedicado) Bueno Excelente para lenguas europeas, tono natural Excelente (CN/EN, líder bilingüe)
Long context / CAG Bueno (1M, penalización más allá de 272K) Básico Excelente (1M, caching -90%) 200K, suficiente Excelente (grounding Google Search) Básico Mejor relación contexto/precio (2M) Mejor relación contexto/precio (2M) 128K, limitado Bueno (256K, especializado CAG) Bueno (1M) Básico Bueno para RAG, datos UE, contexto hasta 128K Bueno (200K)
Tiempo real / Búsqueda web Sí (web search tool) No Sí (beta) No Sí (grounding Google Search) No El mejor (X + web nativo server-side) Sí (X + web) No No No No No (pero integrable con APIs externas: Twitter, Google Search, etc.) No
Orquestación agéntica La más completa (Agents SDK, MCP, computer use) Básico Excelente (14,5h autónomas METR) Básico Buena Básico Buena (tools server-side) Básico Básico La mejor para swarm (100+ sub-agentes paralelos) Buena (tool use adaptativo) Básico Sí, soporte tareas paralelas vía API, integración fácil con stack UE Excelente (cadena larga, uso persistente de herramientas)
Batch API (-50%) No No
Prompt caching Sí (auto, ~90% descuento) Sí (-90% en cache hit) Sí (-90%) Sí (auto, 75-97%) Sí (auto, 90%) Sí (75%) Sí (hasta 90% descuento en hit)
Fine-tuning Sí (SFT, DPO) No No Sí (Flash) No No No No No No No Sí (open-weight, Apache 2.0/MIT) Sí (variantes open-weight ChatGLM)
Embeddings Sí (nativos) No No Sí (multimodales) No No No No Sí (multilingüe, open-weight)
Open-weight Sí (gpt-oss, Apache 2.0) No No Sí (Gemma 3, 1B-27B) Grok-1 obsoleto (Apache 2.0) Grok-1 obsoleto Sí (MIT, 671B MoE) Sí (Modified MIT, 1T MoE) Sí (Apache 2.0, hasta 397B) Sí (Apache 2.0) Sí (Mistral 7B, Mixtral 8x7B, Mistral Large 2, Apache 2.0) Sí (versiones anteriores, variantes abiertas)
Compatibilidad OpenAI SDK Nativo (es el estándar) Nativo Capa de test, no producción. Usar Messages API Capa de test Endpoint dedicado, casi completo Endpoint dedicado Drop-in Drop-in Drop-in Drop-in Drop-in (DashScope) Drop-in Parcial (compatible con muchas herramientas, pero no nativo como OpenAI) Drop-in
Limitaciones principales Deprecación agresiva. Lock-in. Penalización más allá de 272K tokens Razonamiento limitado El más caro. Sin audio/vídeo/gen. imágenes. Sin open-weight Contexto 200K. Razonamiento limitado Filtrado de seguridad excesivo. Precio se duplica más allá de 200K Capacidades reducidas Proveedor joven. Sostenibilidad incierta. Sesgos políticos No apto para coding o legal Datos en China. Sin visión/audio. Throttling. Censura política Sin representante UE. Entrena con datos de usuarios. Ecosistema inmaduro Documentación fragmentada. Ley china Capacidades reducidas Sin soporte nativo para audio/vídeo/imágenes; contexto inferior a los top modelos (pero en rápida evolución) Hosting en China, no GDPR-safe, sin entrada multimodal
Coste +++ + +++++ ++ +++ + +++ + + ++ +++ + ++ ++

Leyenda de costes

+ ultra-económico ++ económico +++ medio ++++ caro +++++ premium

RGPD / Conformidad UE

Proveedor Hosting UE DPA Residencia de datos Riesgo Notas
Mistral UE (Francia, París) Bajo Datos procesados exclusivamente en UE. Sede legal en París. Políticas de privacidad conformes al RGPD by design. Sin transferencia de datos fuera de la UE.
Anthropic Sí (vía AWS Bedrock) UE vía AWS eu-west (Bedrock) Medio La API directa procesa en EE.UU. La residencia UE requiere AWS Bedrock en región UE. Claude es el único LLM que declara sus propias limitaciones.
Google Sí (vía Vertex AI) UE vía Vertex AI (europe-west) Medio Vertex AI de pago para residencia UE. AI Studio procesa globalmente. El precio se duplica más allá de 200K tokens en Vertex.
OpenAI Sí (vía Azure) UE vía Azure West Europe Medio La API directa procesa en EE.UU. La residencia UE requiere Azure OpenAI Service. Deprecación agresiva de modelos.
Alibaba (Qwen) Parcial (DashScope desde Singapur/EE.UU.) Limitado Singapur / EE.UU. Alto API DashScope desde Singapur/EE.UU. Self-hosted UE posible con pesos Apache 2.0 (hasta 397B). Sujeto a ley china. Documentación fragmentada.
xAI No Sí (bajo petición) Basado en EE.UU. Alto Sin opción de hosting UE. DPA disponible bajo petición. Proveedor joven, sostenibilidad incierta. Posibles sesgos políticos en datos de entrenamiento (X/Twitter).
DeepSeek No (solo self-hosted) No China Crítico Datos procesados y almacenados en China. Prohibido por el Garante italiano. Sujeto a leyes chinas de seguridad nacional. Única opción RGPD-safe: self-hosted UE con pesos abiertos (MIT). Censura política activa.
Moonshot (Kimi) No (solo self-hosted) No China / Singapur Crítico Sin representante UE. Entrenamiento declarado con datos de usuarios. Ecosistema inmaduro. Única opción RGPD-safe: self-hosted UE con pesos abiertos (Modified MIT, 1T MoE).
Zhipu AI (GLM) No (solo self-hosted) No China Crítico Datos procesados y almacenados en China. Sujeto a leyes chinas de seguridad nacional. Self-hosting UE posible con variantes open-weight ChatGLM. Censura política activa.