Sesgo declarado, como siempre: enseño Claude Code a equipos de ingeniería. Y precisamente por eso esta comparativa me interesa más que ninguna: a diferencia de Cursor o Copilot, que juegan en otras categorías, Codex CLI compite exactamente en lo mismo que Claude Code. Aquí no vale el truco de "es que son cosas distintas". Son la misma cosa, hecha con dos filosofías opuestas — y esa diferencia de filosofía, no los benchmarks de esta semana, es lo que debe decidir tu elección.
Primero, lo que NO te va a decidir: los benchmarks
Cada release, uno de los dos lidera SWE-bench o Terminal-Bench y los titulares declaran un ganador. Tres semanas después, sale la versión del otro y se invierte. Si eliges herramienta por el benchmark del mes, vas a migrar cuatro veces al año — y como vimos con la retirada de Gemini CLI, migrar tiene coste aunque lo portable viaje.
Los dos usan modelos punteros (Opus en Claude Code, la familia GPT-Codex en Codex CLI) y los dos resuelven tareas reales de producción. La diferencia está en cómo trabajan y para quién están diseñados, y eso sí es estable entre versiones.
Comparativa de un vistazo
| Claude Code | Codex CLI | |
|---|---|---|
| Filosofía | Autonomía supervisada: tú defines la política | Autonomía plena: dispara y revisa al final |
| Velocidad percibida | Más deliberado: lee antes de actuar | Más rápido en iteración corta |
| Comprensión de codebase | Su punto más fuerte: lee amplio, explica con referencias | Correcta, optimizada para ir al grano |
| Capa de equipo | CLAUDE.md, skills, hooks, permisos, plugins, agent teams | Más fina: config individual, menos estandarización |
| Seguridad | Política programable (permisos, hooks) + sandboxing | Sandbox a nivel de SO (Seatbelt, Landlock/seccomp) |
| Código abierto | No | Sí (la CLI) |
| Automatización (CI, cloud) | Headless de serie, GitHub/GitLab, sesiones cloud | Ejecución cloud nativa, tareas asíncronas |
| Riesgo típico | Pagar deliberación en tareas que no la necesitan | Revisar de menos porque "ya lo hizo solo" |
La diferencia de fondo: quién supervisa y cuándo
Codex CLI apuesta por la autonomía plena. Su flujo natural es lanzar la tarea — en local o directamente en su nube — y volver cuando está hecha. La seguridad la pone el sistema operativo: el proceso corre en un sandbox (Seatbelt en macOS, Landlock y seccomp en Linux) que limita qué puede tocar. Es un modelo elegante: confía, aísla, revisa el resultado.
Claude Code apuesta por la autonomía supervisada. También tiene modos automáticos y sesiones en background, pero su centro de gravedad es otro: tú escribes la política — qué se permite, qué se deniega siempre, qué hook se dispara antes de cada acción — y el agente opera dentro de ella. La supervisión no es "mirar mientras trabaja"; es haber codificado las reglas antes.
¿Cuál es mejor? Depende de qué te cueste más caro: el tiempo de definir reglas o el riesgo de no tenerlas. Para un dev solo con proyectos pequeños, la fricción de Codex es menor y su velocidad se nota cada hora. Para un equipo con un repo compartido, convenciones y compliance, la política programable deja de ser fricción y pasa a ser el producto.
Donde gana Codex CLI, sin regatear
- Velocidad de iteración. Para el ciclo corto — el fix rápido, el script, la automatización puntual — responde en segundos donde Claude Code se toma su tiempo. En una jornada entera, eso compone.
- Trabajo terminal-nativo. DevOps, scripts, herramientas CLI: es su terreno natural y se nota.
- CLI open source. Puedes leer el código, parchearlo, integrarlo. Para algunas organizaciones esto es requisito, no preferencia.
- Coste por token. La familia GPT-Codex es agresiva en precio, y desde abril de 2026 los planes de ChatGPT facturan Codex por uso real de tokens — más transparente para estimar.
Donde gana Claude Code, sin regatear
- Entender código ajeno. Pídele la arquitectura de un repo grande o rastrear un flujo de datos: lee en amplitud antes de responder y cita ficheros y funciones concretas. Si tu día a día es código heredado, esto solo ya decide.
- La capa de equipo.
CLAUDE.mdcompartido, skills que empaquetan procedimientos, hooks deterministas, permisos por repo, plugins distribuibles, agent teams. Codex no tiene un equivalente real a estandarizar cómo trabaja todo un equipo, no cada individuo. - El ecosistema de extensión. MCP es estándar en ambos, pero el sistema de skills/plugins/marketplaces de Claude Code es hoy el más profundo de la categoría.
Sobre el precio: cambia cada trimestre en los dos y cualquier cifra que escriba aquí caduca antes que esta guía. La regla estable: Claude Code tiende a costar más por tarea y devolverlo en menos revisión; Codex tiende a costar menos y pedir más limpieza manual. Mide con tu equipo dos semanas y compara coste total (tokens + tiempo de revisión), no tarifa.
¿Y usar los dos?
Es más común de lo que parece, y no es indecisión: Codex para el ciclo corto terminal-nativo, Claude Code para las tareas largas sobre el repo compartido y todo lo que pasa por CI. Lo que aprendiste con uno — acotar tareas, escribir contexto, verificar — funciona en el otro; el método es el activo portable, la herramienta no.
La trampa de siempre: dos suscripciones para usar las dos como chat. Si no hay método, da igual el agente — estás pagando dos veces el mismo error.
Qué llevarte
- Misma categoría, filosofías opuestas: autonomía plena con sandbox de SO (Codex) vs. autonomía supervisada con política programable (Claude Code). Elige según qué riesgo te cuesta más caro.
- Dev solo y ciclo corto → Codex tiene argumentos. Equipo, repo grande y estandarización → Claude Code tiene más. Los benchmarks del mes no cambian esto.
- Combinar es legítimo; lo que no es legítimo es no medir. Dos semanas de prueba con tareas reales valen más que toda esta guía.
Preguntas rápidas
¿Cuál escribe "mejor código"? La pregunta honesta es cuál escribe mejor código en tu repo, con tu contexto. Ambos mejoran drásticamente con buen contexto de proyecto — y empeoran igual sin él. La variable eres tú más que el modelo.
¿Me sirve lo que aprenda de uno si luego cambio? Casi todo: método, MCP, fichero de contexto y disciplina de verificación viajan. La configuración específica (permisos, hooks, skills) se rehace. Por eso insisto: invierte en lo portable primero.
¿Por qué enseñas Claude Code y no Codex? Porque mi cliente es el equipo, no el individuo — y la capa de estandarización de equipo de Claude Code es hoy la más completa. El día que eso cambie, esta guía cambiará conmigo.
¿Y si sois un equipo decidiendo ahora? La elección de herramienta es la decisión pequeña; la grande es el método con el que ocho personas la van a usar igual. Eso es lo que resuelvo en la formación en directo para equipos — incluida una prueba medida sobre vuestro repo para que la decisión salga de datos, no de titulares.