Comparativa LLM vía API

Desplázate horizontalmente para ver todos los modelos

	OpenAI		Anthropic		Google		xAI		DeepSeek	Moonshot	Alibaba		Mistral	Zhipu AI
	GPT-5.4	GPT-5.4-nano	Claude Opus 4.6	Claude Haiku 4.5	Gemini 2.5 Pro	Gemini Flash-Lite	Grok 4.20	Grok 4.1 Fast	V3.2 / R1	Kimi K2.5	Qwen Plus	Qwen Flash	Le Chat	GLM-5-Turbo
Ideal para	Orquestación de agentes, tool calling, structured output	Router, micro-tareas, triaje de alto volumen	Coding premium, razonamiento profundo, análisis legal, escritura larga	Validación intermedia, RGPD-safe económico, clasificación semántica	Multimodalidad nativa (audio, vídeo, imágenes), CAG con grounding	Triaje y clasificación ultra-económicos	Datos en tiempo real, tendencias sociales, análisis de eventos en vivo	Contexto enorme a coste mínimo	Tareas de altísimo volumen a coste casi cero (V3.2), razonamiento matemático económico (R1)	Orquestación swarm, paralelización de sub-tareas	Multilingüe enterprise, traducción en 92 idiomas	Tareas ultra-económicas, clasificación, routing	Workflows italiano/UE, cumplimiento RGPD, tareas textuales, tool calling, orquestación de agentes	Flujos agentivos de cadena larga con tool calling (solo texto). Alternativa más económica a Sonnet para coordinación de workflows. No apto para datos personales UE.
Contexto máx.	1.05M	1.05M	1M	200K	1M	1M	2M	2M	128K	256K	1M	1M	128K (hasta 1M con versiones avanzadas)	200K
Entrada: texto	Sí	Sí	Sí	Sí	Sí	Sí	Sí	Sí	Sí	Sí	Sí	Sí	Sí	Sí
Entrada: imágenes	Sí	Sí	Sí	Sí	Sí	Sí	Sí	Sí	No	Sí	Sí	Sí	No (pero integrable con herramientas externas)	No
Entrada: audio	Sí (Realtime API)	No	No	No	Sí (nativo, hasta 9,5h)	No	Sí (Voice API)	No	No	No	Sí (Omni)	No	No (pero integrable con herramientas externas)	No
Entrada: vídeo	No	No	No	No	Sí (nativo)	No	No	No	No	No	Sí (Omni)	No	No (pero integrable con herramientas externas)	No
Generación de imágenes	Sí (gpt-image)	No	No	No	Sí (inline)	No	Sí	No	No	No	No	No	No (pero integrable con herramientas externas)	No
Tool calling	El más maduro y fiable (>95%)	Sí, básico	Sí (strict tool use)	Sí	Sí	Sí	Sí	Sí	Sí (V3.2), No (R1 reasoner)	Sí (300 pasos)	Sí	Sí	Sí, avanzado y fiable	Sí (especializado en agentes)
Structured output JSON	Strict mode, el más robusto	Sí	Sí (GA)	Sí	Sí	Sí	Sí	Sí	Sí	Sí	Sí	Sí	Sí, modo strict	Sí
Coding	Bueno (Codex dedicado para agéntico)	Básico	Líder SWE-bench (80,7%). El mejor	Suficiente	Bueno	Básico	Bueno	Básico	Competitivo a 1/10 del coste	Bueno (visual coding)	Bueno (variante Coder dedicada)	Básico	Excelente para Python/JS/SQL, explicaciones claras	Excelente (SOTA en SWE-bench, refactoring/depuración)
Reasoning / Matemáticas	Bueno (o4-mini: 99,5% AIME)	Limitado	Excelente (adaptive thinking)	Suficiente	Excelente (Deep Think)	Limitado	Bueno	Básico	Excelente (R1: CoT visible, debuggable)	Bueno	Bueno (variante Math dedicada)	Limitado	Excelente para problemas lógicos, CoT visible	Bueno
Traducción / Multilingüe	Bueno	Básico	Bueno	Bueno	Bueno (24+ idiomas audio)	Básico	Básico	Básico	Básico	Bueno (CN/EN)	El mejor (92 idiomas, MT dedicado)	Bueno	Excelente para lenguas europeas, tono natural	Excelente (CN/EN, líder bilingüe)
Long context / CAG	Bueno (1M, penalización más allá de 272K)	Básico	Excelente (1M, caching -90%)	200K, suficiente	Excelente (grounding Google Search)	Básico	Mejor relación contexto/precio (2M)	Mejor relación contexto/precio (2M)	128K, limitado	Bueno (256K, especializado CAG)	Bueno (1M)	Básico	Bueno para RAG, datos UE, contexto hasta 128K	Bueno (200K)
Tiempo real / Búsqueda web	Sí (web search tool)	No	Sí (beta)	No	Sí (grounding Google Search)	No	El mejor (X + web nativo server-side)	Sí (X + web)	No	No	No	No	No (pero integrable con APIs externas: Twitter, Google Search, etc.)	No
Orquestación agéntica	La más completa (Agents SDK, MCP, computer use)	Básico	Excelente (14,5h autónomas METR)	Básico	Buena	Básico	Buena (tools server-side)	Básico	Básico	La mejor para swarm (100+ sub-agentes paralelos)	Buena (tool use adaptativo)	Básico	Sí, soporte tareas paralelas vía API, integración fácil con stack UE	Excelente (cadena larga, uso persistente de herramientas)
Batch API (-50%)	Sí	Sí	Sí	Sí	Sí	Sí	Sí	Sí	No	No	Sí	Sí	Sí	Sí
Prompt caching	Sí (auto, ~90% descuento)	Sí	Sí (-90% en cache hit)	Sí	Sí (-90%)	Sí	Sí (auto, 75-97%)	Sí	Sí (auto, 90%)	Sí (75%)	Sí	Sí	Sí (hasta 90% descuento en hit)	Sí
Fine-tuning	Sí (SFT, DPO)	Sí	No	No	Sí (Flash)	No	No	No	No	No	No	No	Sí (open-weight, Apache 2.0/MIT)	Sí (variantes open-weight ChatGLM)
Embeddings	Sí (nativos)	Sí	No	No	Sí (multimodales)	Sí	No	No	No	No	Sí	Sí	Sí (multilingüe, open-weight)	Sí
Open-weight	Sí (gpt-oss, Apache 2.0)	Sí	No	No	Sí (Gemma 3, 1B-27B)	Sí	Grok-1 obsoleto (Apache 2.0)	Grok-1 obsoleto	Sí (MIT, 671B MoE)	Sí (Modified MIT, 1T MoE)	Sí (Apache 2.0, hasta 397B)	Sí (Apache 2.0)	Sí (Mistral 7B, Mixtral 8x7B, Mistral Large 2, Apache 2.0)	Sí (versiones anteriores, variantes abiertas)
Compatibilidad OpenAI SDK	Nativo (es el estándar)	Nativo	Capa de test, no producción. Usar Messages API	Capa de test	Endpoint dedicado, casi completo	Endpoint dedicado	Drop-in	Drop-in	Drop-in	Drop-in	Drop-in (DashScope)	Drop-in	Parcial (compatible con muchas herramientas, pero no nativo como OpenAI)	Drop-in
Limitaciones principales	Deprecación agresiva. Lock-in. Penalización más allá de 272K tokens	Razonamiento limitado	El más caro. Sin audio/vídeo/gen. imágenes. Sin open-weight	Contexto 200K. Razonamiento limitado	Filtrado de seguridad excesivo. Precio se duplica más allá de 200K	Capacidades reducidas	Proveedor joven. Sostenibilidad incierta. Sesgos políticos	No apto para coding o legal	Datos en China. Sin visión/audio. Throttling. Censura política	Sin representante UE. Entrena con datos de usuarios. Ecosistema inmaduro	Documentación fragmentada. Ley china	Capacidades reducidas	Sin soporte nativo para audio/vídeo/imágenes; contexto inferior a los top modelos (pero en rápida evolución)	Hosting en China, no GDPR-safe, sin entrada multimodal
Coste	+++	+	+++++	++	+++	+	+++	+	+	++	+++	+	++	++

Proveedor	Hosting UE	DPA	Residencia de datos	Riesgo	Notas
Mistral	Sí	Sí	UE (Francia, París)	Bajo	Datos procesados exclusivamente en UE. Sede legal en París. Políticas de privacidad conformes al RGPD by design. Sin transferencia de datos fuera de la UE.
Anthropic	Sí (vía AWS Bedrock)	Sí	UE vía AWS eu-west (Bedrock)	Medio	La API directa procesa en EE.UU. La residencia UE requiere AWS Bedrock en región UE. Claude es el único LLM que declara sus propias limitaciones.
Google	Sí (vía Vertex AI)	Sí	UE vía Vertex AI (europe-west)	Medio	Vertex AI de pago para residencia UE. AI Studio procesa globalmente. El precio se duplica más allá de 200K tokens en Vertex.
OpenAI	Sí (vía Azure)	Sí	UE vía Azure West Europe	Medio	La API directa procesa en EE.UU. La residencia UE requiere Azure OpenAI Service. Deprecación agresiva de modelos.
Alibaba (Qwen)	Parcial (DashScope desde Singapur/EE.UU.)	Limitado	Singapur / EE.UU.	Alto	API DashScope desde Singapur/EE.UU. Self-hosted UE posible con pesos Apache 2.0 (hasta 397B). Sujeto a ley china. Documentación fragmentada.
xAI	No	Sí (bajo petición)	Basado en EE.UU.	Alto	Sin opción de hosting UE. DPA disponible bajo petición. Proveedor joven, sostenibilidad incierta. Posibles sesgos políticos en datos de entrenamiento (X/Twitter).
DeepSeek	No (solo self-hosted)	No	China	Crítico	Datos procesados y almacenados en China. Prohibido por el Garante italiano. Sujeto a leyes chinas de seguridad nacional. Única opción RGPD-safe: self-hosted UE con pesos abiertos (MIT). Censura política activa.
Moonshot (Kimi)	No (solo self-hosted)	No	China / Singapur	Crítico	Sin representante UE. Entrenamiento declarado con datos de usuarios. Ecosistema inmaduro. Única opción RGPD-safe: self-hosted UE con pesos abiertos (Modified MIT, 1T MoE).
Zhipu AI (GLM)	No (solo self-hosted)	No	China	Crítico	Datos procesados y almacenados en China. Sujeto a leyes chinas de seguridad nacional. Self-hosting UE posible con variantes open-weight ChatGLM. Censura política activa.

Comparativa LLM vía API — Abril 2026

Leyenda de costes

Comparativa LLM vía API — Abril 2026

Leyenda de costes

RGPD / Conformidad UE

Configuración de cookies