Claude Fable 5: el modelo que asustó al gobierno

TL;DR:

Anthropic lanzó Claude Fable 5 el 9 de junio de 2026, el primer modelo de clase Mythos disponible al público general. Claude Mythos 5, la versión sin safeguards de seguridad, sigue restringida a organizaciones aprobadas.
En SWE-bench Pro (tareas de ingeniería), Fable 5 obtiene 80.3% contra 58.6% de GPT-5.5 y 54.2% de Gemini 3.1 Pro. En GPQA Diamond (ciencia doctoral), Gemini lidera con 94.3%.
El precio ($10/$50 por millón de tokens) y los filtros de seguridad (8-9% de tareas rechazadas o degradadas) son las fricciones más documentadas del lanzamiento.

Tres días antes de que Anthropic lanzara su modelo más potente al público, publicó una declaración advirtiendo que la inteligencia artificial está avanzando más rápido de lo que la sociedad puede adaptarse. Cuatro días después, liberó Claude Fable 5.

Esta contradicción no es accidental. Es el ADN de la industria en 2026.

El 9 de junio de 2026, Anthropic presentó dos modelos: Claude Fable 5, el primero de la nueva clase Mythos disponible para el público general, y Claude Mythos 5, la versión sin clasificadores de seguridad, restringida a organizaciones aprobadas mediante Project Glasswing. Mismo modelo subyacente. Reglas completamente distintas.

Lo que sigue es lo que dicen los datos.

Qué es la clase Mythos y por qué cambia el mapa

Anthropic introdujo el término "Mythos-class" para designar una capa de capacidad por encima del tier Opus, que hasta ahora representaba el techo de lo públicamente disponible. En este esquema, Fable 5 es la puerta de entrada: mismo modelo que Mythos 5, con clasificadores de seguridad activos que filtran ciertos tipos de solicitudes.

En abril de 2026 analizamos en detalle Claude Mythos Preview, cuando el modelo todavía no era público y Anthropic mantenía que sus capacidades eran demasiado riesgosas para distribución abierta. La situación cambió. Fable 5 es la respuesta a esa restricción: Mythos-class con salvaguardas activas.

La documentación oficial es precisa: ambos modelos —Fable 5 y Mythos 5— comparten arquitectura subyacente. La diferencia está en qué se permite ejecutar.

Claude Fable 5 incluye:

Clasificadores activos en tres áreas: ciberseguridad, biología/química, y destilación del modelo.
Cuando una solicitud es rechazada, el sistema puede hacer fallback automático a Claude Opus 4.8.
Ese fallback ocurre en menos del 5% de las sesiones según Anthropic. Revisores independientes reportan entre 8% y 9% en uso real.

Claude Mythos 5 opera sin:

Los clasificadores de ciberseguridad de Fable 5.
Disponible únicamente vía Project Glasswing, el programa de acceso controlado que analizamos más adelante.
Sucesor directo de Claude Mythos Preview.

Especificaciones técnicas

Los números concretos que importan para quien evalúa el modelo:

Ventana de contexto: 1 millón de tokens por defecto.

Tokens de salida máximos: 128.000 por solicitud. Es una diferencia práctica significativa para tareas de generación de código extenso o análisis de documentos largos.

Precio: $10 por millón de tokens de entrada, $50 por millón de salida. Esto representa el doble del costo de Claude Opus 4.5 a 4.8.

Cutoff de conocimiento: enero de 2026.

Razonamiento adaptativo: siempre activo. No se puede desactivar. En modelos anteriores el pensamiento extendido era opcional; en Fable 5 y Mythos 5 es el único modo disponible. La profundidad se controla con el parámetro effort.

Hay un cambio importante en el comportamiento de la API: la cadena de pensamiento crudo no se devuelve nunca. Los bloques de thinking están vacíos por defecto (display: "omitted"). Para recibir razonamiento resumido, hay que establecer display: "summarized" explícitamente. Este cambio afecta a cualquier integración que dependía de inspeccionar el proceso de razonamiento del modelo.

Nueva funcionalidad incluida en el lanzamiento:

Parámetro effort para controlar profundidad de pensamiento.
task-budgets (beta): límites explícitos de recursos por tarea.
Herramienta de memoria nativa.
Context editing con compactación.
Visión habilitada.

Retención de datos: Claude Fable 5 y Mythos 5 son Modelos Cubiertos, con retención obligatoria de 30 días. Esto aplica incluso a cuentas con acuerdos de zero-retention activos, lo que los hace incompatibles con muchos flujos de trabajo en sectores regulados.

Project Glasswing: el programa que pocos mencionan

Project Glasswing no es un programa de early access convencional. Es, en términos de Anthropic, un esfuerzo para "asegurar software crítico antes de que actores hostiles puedan weaponizar tecnologías similares."

El contexto importa: Claude Mythos Preview demostró ser capaz de identificar vulnerabilidades de software de forma autónoma, superando en desempeño a todos excepto a los mejores especialistas humanos en ciberseguridad. Eso crea un dilema obvio: si el modelo existe, alguien va a tener acceso. La pregunta es quién y bajo qué condiciones.

Anthropic respondió esa pregunta creando un perímetro controlado con supervisión gubernamental de Estados Unidos.

Los números del programa al 10 de junio de 2026:

Más de 150 organizaciones en más de 15 países.
Socios fundadores: AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks.
$100 millones en créditos de uso cedidos.
$4 millones en donaciones directas a organizaciones de seguridad open source: $2.5M a Alpha-Omega y OpenSSF; $1.5M a la Apache Software Foundation.

Resultados documentados:

Más de 10.000 vulnerabilidades identificadas en software de infraestructura crítica.
Un fallo de 27 años en OpenBSD.
Una vulnerabilidad de 16 años en FFmpeg.
Múltiples exploits en el kernel de Linux.
Tasa de reproducción de vulnerabilidades conocidas: 83.1% (el modelo anterior mejor era 66.6%).

Estos resultados son los que justifican, según Anthropic, por qué Mythos 5 sin filtros no está disponible de forma abierta. El precio de acceso post-preview para organizaciones aprobadas: $25/$125 por millón de tokens de entrada/salida.

Benchmarks: dónde gana y dónde no

Los benchmarks son el primer nivel de evidencia. No el único, pero el más comparable entre modelos.

SWE-bench Pro (tareas de ingeniería de software de alta dificultad):

Modelo	Lanzamiento	SWE-bench Pro
Claude Fable 5	9 jun 2026	80.3%
GPT-5.5 (OpenAI)	23 abr 2026	58.6%
Gemini 3.1 Pro (Google)	19 feb 2026	54.2%

La ventaja de Fable 5 sobre GPT-5.5 es de 21.7 puntos porcentuales. Para referencia: esa brecha es mayor que la distancia entre GPT-5.5 y Gemini entre ellos.

GPQA Diamond (preguntas de ciencia de nivel doctoral):

Modelo	GPQA Diamond
Gemini 3.1 Pro	94.3%
GPT-5.5	92.8%
Claude Fable 5	91.3%

En razonamiento científico de alta complejidad, Gemini 3.1 Pro lidera. La diferencia entre los tres modelos es menor de 3 puntos porcentuales: estadísticamente cercana pero consistente.

FrontierCode (calidad y eficiencia de código): Claude Fable 5 lidera entre todos los modelos frontier evaluados.

Seguridad (reproducción de vulnerabilidades): 83.1% con Mythos 5 contra 66.6% del mejor modelo anterior.

El caso más citado por la empresa en su comunicado de lanzamiento: Stripe migró un codebase Ruby de 50 millones de líneas en un día —trabajo que un equipo de ingeniería estimó en más de dos meses de forma manual.

Primeras impresiones: lo que dicen quienes lo usaron

Simon Willison, desarrollador de referencia en el ecosistema Python y autor del proyecto datasette, publicó sus observaciones el mismo 9 de junio con datos de facturación reales.

Sus hallazgos: cinco horas y media de trabajo intensivo con el modelo costaron $110.42. La mayor parte ($99.26) correspondió al desarrollo de un agente para Datasette. Su descripción: "es una bestia. Es lento, caro y ha procesado con éxito todo lo que le he puesto. Como suele pasar con los modelos frontier actuales, el desafío es encontrar tareas que no pueda hacer."

Trabajo técnico completado en esas sesiones:

Generó un wheel de Python de 13.9MB para ejecutar CPython en entornos WebAssembly.
Implementó cuatro mejoras interconectadas a la biblioteca LLM, incluyendo mecánicas de pause/resume de tool-calls y manejo de errores.
Identificó proactivamente builds WASI de Brett Cannon y depuró problemas de resolución de paths.

Willison también identificó una limitación concreta: la variación impredecible en el consumo de tokens para generación de SVG en solicitudes idénticas a distintos niveles de thinking.

Andrej Karpathy, investigador con historial en OpenAI y Stanford, calificó el lanzamiento como "un salto que merece un cambio de versión mayor".

Estas no son evaluaciones de relaciones públicas. Son de usuarios que miden resultados contra costos reales.

Los puntos ciegos que no aparecen en los comunicados

Los anuncios oficiales tienen una tendencia documentada a omitir las fricciones reales. Los revisores independientes las documentan.

Costo real en producción: The Decoder documentó un caso donde los costos de API mensuales pasaron de $200 a $10.000 bajo facturación enterprise con potencial de llegar a $20.000 con Fable 5. Para equipos en mercados donde el costo hora de desarrollo es más bajo, la comparativa con contratar capacidad adicional puede no favorecer al modelo.

Los filtros de seguridad en uso real: El porcentaje de fallback citado por Anthropic (menos del 5%) no coincide con las mediciones independientes (8-9% en uso real). Los patrones de bloqueo van más allá de lo que el diseño intencional sugiere:

Un físico médico no pudo usar el modelo porque el término "nuclear" activó clasificadores, bloqueando trabajo legítimo de segmentación de MRI.
Investigadores en biología computacional encontraron rechazos en consultas técnicas estándar.
Un plan Max agotó la ventana completa de cinco horas sin completar la tarea asignada.

Estas no son quejas de usuarios que intentaban saltarse restricciones de seguridad. Son casos de uso legítimos bloqueados por clasificadores mal calibrados.

La degradación invisible: The Decoder reportó que Anthropic implementa, en aproximadamente el 0.03% del tráfico, manipulación deliberada de respuestas relacionadas con diseño de aceleradores de ML para prevenir la destilación del modelo por competidores. El porcentaje es pequeño, pero el principio es relevante para organizaciones que evalúan el modelo para investigación técnica sensible.

Retención de datos obligatoria: Los 30 días de retención obligatoria —incluso para cuentas con zero-retention— convierten a Fable 5 en un no-viable para industrias como finanzas, salud o servicios legales bajo marcos regulatorios estrictos.

El panorama competitivo: lo que viene

Fable 5 no compite en un mercado estático. La comparativa de precios y capacidades cambia cada pocas semanas.

Modelo	Empresa	Lanzamiento	Input ($/M tokens)	Output ($/M tokens)	SWE-bench Pro	GPQA Diamond
Claude Fable 5	Anthropic	9 jun 2026	$10	$50	80.3%	91.3%
GPT-5.5	OpenAI	23 abr 2026	$5	$30	58.6%	92.8%
Gemini 3.1 Pro	Google	19 feb 2026	$2	$12	54.2%	94.3%

Contexto adicional:

OpenAI tiene GPT-5.6 en testing interno. Lanzamiento estimado: junio de 2026.
Google lanzó Gemini 3.5 Live Translate el 10 de junio: speech-to-speech en tiempo real en más de 70 idiomas.
Grok 4 de xAI aparece como cuarto competidor relevante en comparativas de benchmark.
OpenAI presentó su S-1 confidencial ante la SEC el 8 de junio. Anthropic había hecho lo mismo días antes.

La decisión de qué modelo usar depende de la tarea. Para ingeniería de software, Fable 5 tiene una ventaja medible y sustancial. Para investigación científica, Gemini 3.1 Pro compite a una cuarta parte del precio. Para uso general con presupuesto limitado, GPT-5.5 ofrece el mejor equilibrio entre costo y capacidad.

La pregunta que los benchmarks no responden

El newsletter Import AI #460, publicado el 8 de junio —un día antes del lanzamiento de Fable 5— documentó una observación de Jack Clark, cofundador de Anthropic: el código mergeado al codebase interno de la empresa en 2026 aumentó ocho veces en comparación con el período 2021-2024, con una aceleración que comenzó en 2025.

Clark fue deliberadamente cuidadoso en el framing: no es mejoramiento recursivo maximalista, no hay un modelo diseñando autónomamente a su sucesor. Lo que existe es una aceleración de productividad en el laboratorio que es cuantitativamente documentable y que Clark describe como potencialmente "existencial" en importancia.

La pieza que falta, según el propio Clark, es si esa aceleración incluye la creatividad suficiente para "ideas de cambio de paradigma", no solo ejecución eficiente de tareas conocidas.

Esa es la pregunta que Fable 5, como producto, no responde. Pero que hace más urgente plantear.

Para developers: qué cambia en la API

Si estás migrando desde Claude Opus 4.8 o desde Claude Mythos Preview, hay cambios concretos que afectan integraciones existentes.

El cambio más importante: thinking: {"type": "disabled"} ya no es válido.

En Fable 5 y Mythos 5, el pensamiento adaptativo es obligatorio. Si tu código envía este parámetro, recibirás un error. El reemplazo es el parámetro effort:

# ANTES — Opus 4.8 con thinking extendido opcional
response = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=8096,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000
    },
    messages=[{"role": "user", "content": prompt}]
)

# AHORA — Fable 5 con effort parameter
response = client.messages.create(
    model="claude-fable-5",
    max_tokens=32000,
    effort="high",  # opciones: "low" | "medium" | "high"
    messages=[{"role": "user", "content": prompt}]
)

Manejo de rechazos: el nuevo stop_reason: "refusal".

Cuando un clasificador rechaza una solicitud, la API devuelve HTTP 200 con stop_reason: "refusal", no un error HTTP. Si tu código solo verifica stop_reason: "end_turn" o "max_tokens", puede ignorar silenciosamente rechazos. El manejo correcto:

response = client.messages.create(
    model="claude-fable-5",
    max_tokens=16000,
    fallbacks=["claude-opus-4-8"],  # fallback automático en beta
    messages=[{"role": "user", "content": prompt}]
)

if response.stop_reason == "refusal":
    print(f"Solicitud rechazada. Clasificador: {response.stop_details}")
    # El sistema hizo fallback automático a Opus 4.8 si configuraste `fallbacks`
else:
    print(response.content)

El parámetro fallbacks y el crédito de fallback.

Al incluir fallbacks=["claude-opus-4-8"], la API reintenta automáticamente la solicitud rechazada en el modelo indicado. Anthropic ofrece un crédito de fallback que reembolsa el costo de caché del cambio de modelo, evitando pagar dos veces por el mismo contexto.

Thinking output: cómo recibir razonamiento resumido.

Por defecto, los bloques de thinking están vacíos. Para inspeccionar el proceso de razonamiento:

response = client.messages.create(
    model="claude-fable-5",
    max_tokens=16000,
    thinking={"display": "summarized"},  # devuelve resumen legible del razonamiento
    messages=[{"role": "user", "content": prompt}]
)

for block in response.content:
    if block.type == "thinking":
        print("Razonamiento:", block.thinking)  # resumen legible
    elif block.type == "text":
        print("Respuesta:", block.text)

Task budgets (beta): control de recursos por tarea.

Para tareas agénticas de largo horizonte, el nuevo parámetro task-budgets permite establecer límites explícitos de tokens por tarea. Se activa con el header task-budgets-2026-03-13:

response = client.messages.create(
    model="claude-fable-5",
    max_tokens=128000,
    extra_headers={"task-budgets-2026-03-13": "true"},
    messages=[{"role": "user", "content": prompt}]
)

Guía de migración desde Opus 4.8: La documentación oficial incluye una guía de migración paso a paso con los cambios de parámetros, nuevos stop_reasons, y cómo gestionar el thinking output en conversaciones de múltiples turnos.

Lo que esto significa en términos concretos

Claude Fable 5 es el modelo de código más capaz disponible al público a día 10 de junio de 2026. Los datos de SWE-bench Pro lo confirman con 21 puntos de ventaja sobre GPT-5.5. Esa capacidad tiene un precio literal: el doble de costo que el competidor más directo, filtros de seguridad que crean fricción documentada en casos de uso legítimos, y una política de retención de datos incompatible con sectores regulados.

Para equipos construyendo agentes de software, pipelines de desarrollo automatizado o herramientas de análisis de código, Fable 5 ofrece capacidades documentadas que justifican la evaluación. Para investigación científica o casos de uso multimodal, Gemini 3.1 Pro compite a una fracción del precio.

Project Glasswing y Claude Mythos 5 representan una apuesta distinta: la hipótesis de que hay capacidades que todavía no deberían ser públicas, y que la forma de gestionar esa situación es distribución controlada con supervisión gubernamental. Si esa hipótesis es una decisión de seguridad genuina o es marketing de escasez con respaldo institucional es algo que, con los datos disponibles actualmente, no se puede responder con certeza.

Lo que sí es verificable: el modelo existe, funciona, tiene limitaciones concretas, y su lanzamiento ocurrió cuatro días después de que la misma empresa advirtiera que la IA avanza más rápido de lo que la sociedad puede adaptarse.

Esa contradicción es la noticia real.

Tincho Fuentes — Periodista tecnológico e investigador 🚀

Fuentes: Documentación oficial Anthropic · Project Glasswing · Análisis Simon Willison · The Decoder: crítica completa · TechCrunch: contexto del lanzamiento · Import AI #460 · AWS Blog · GitHub Copilot Changelog