Explicación de Sakana Fugu (2026): el modelo japonés de orquestación de IA frente a GPT, Claude y Gemini

Japón acaba de realizar una de las apuestas más contrarias en el ámbito de la IA. En lugar de invertir miles de millones para entrenar un modelo que supere a GPT-5.5 y Claude Opus 4.8, Tokio Sakana AI ha desarrollado un modelo cuya única función es coordinar a otros modelos. Conozca Sakana Fugu — lanzado el 22 de junio de 2026 —, un modelo de lenguaje grande (LLM) entrenado para invocar a otros LLM.

Conclusiones clave

Sakana Fugu es un «modelo de coordinación» — redirige cada tarea a un equipo coordinado de modelos punteros (GPT-5.5, Claude Opus 4.8, Gemini 3.1 Pro…), en lugar de responderlo todo por sí mismo.
Existen dos versiones: Fugu (rápido, para uso cotidiano) y Fugu Ultra (para los problemas más complejos y de múltiples pasos).
Fugu Ultra obtiene la puntuación más alta en 10 de los 11 benchmarks — superando a Opus 4.8 y GPT-5.5 en SWE-Bench Pro (73,7), TerminalBench, LiveCodeBench y el «Último examen de la humanidad» (datos propios de Sakana).
API compatible con OpenAI; suscripciones a 20 $ / 100 $ / 200 $ al mes. Actualmente no disponible en la UE/EEE.
La gran pregunta: ¿se trata de un avance genuino en coordinación o simplemente de «un enrutador»? Analizamos ambas posturas.

¿Qué es Sakana Fugu?

Sakana Fugu es no un modelo base tradicional. Es un conductor — un sistema aprendido cuya especialidad es decidir qué otros modelos de IA deben encargarse de tu solicitud y cómo. El nombre es una alusión humorística: fugu es una exquisita especie de globo que solo un experto puede preparar con seguridad. La implicación es que coordinar modelos potentes es, en sí mismo, un arte.

Cuando envías una consulta al único punto final de Fugu, compatible con OpenAI, el modelo decide internamente: responder directamente cuando puede hacerlo (preguntas sencillas, baja latencia) o ensamblar y coordinar un equipo de modelos especializados cuando la tarea es compleja. La selección de modelos, la delegación de tareas, la verificación y la síntesis final ocurren íntegramente dentro del sistema y permanecen invisibles para ti. Como señala Sakana, el enrutamiento por consulta es propietario: ves una única respuesta, no al comité que la generó.

Cómo funciona realmente la coordinación

Bajo el capó, Fugu ejecuta un bucle que tiene aproximadamente esta estructura: enrutamiento → delegación → verificación → síntesis. Está construido sobre dos artículos que Sakana publicó en la conferencia ICLR 2026:

TRINITY — un coordinador ligero y optimizado evolutivamente que opera a lo largo de varias rondas, asignando dinámicamente los roles de Pensador, Trabajador o Verificador para delegar tareas de forma adaptativa.
Conductor — un sistema entrenado mediante aprendizaje por refuerzo para descubrir estrategias de coordinación en lenguaje natural y promps específicos enfocados, destinados a un conjunto diverso de modelos de lenguaje de gran tamaño (LLM).

Esa distinción es clave: Fugu no es no un simple enrutador condicional (si-entonces). Es un coordinador que ha sido optimizado —mediante evolución y aprendizaje por refuerzo— para decidir quién hace qué, para verificar las respuestas mediante un rol de verificador y para integrar coherentemente todas las piezas en una única respuesta. Si dicha optimización se mantiene fuera de las propias evaluaciones de Sakana es la pregunta abierta a la que volvemos más adelante.

Ejemplo práctico: una consulta difícil, desde el inicio hasta el final

Imagina que le pides a Fugu Ultra que «refactores este servicio en Python de 800 líneas para usar programación asíncrona y corregir la condición de carrera en el grupo de conexiones». Detrás de la única respuesta que recibes, la coreografía es aproximadamente la siguiente:

Enrutamiento: Fugu reconoce que se trata de una tarea de programación compleja y multifacética, no de una respuesta breve, por lo que convoca un equipo en lugar de responder directamente.
Pensador: se asigna un modelo potente de razonamiento para planificar la refactorización y localizar conceptualmente la condición de carrera.
Trabajador: un modelo especializado en programación escribe la implementación asíncrona real siguiendo dicho plan.
Verificador: un tercer modelo examina las diferencias (diff) frente a la intención original: ¿se preserva el comportamiento? ¿Se ha corregido efectivamente la condición de carrera? —y señala cualquier problema detectado.
Síntesis: Fugu integra las observaciones del verificador, solicita una corrección si es necesario y devuelve una única respuesta limpia.

Nunca ves los traspasos entre modelos. Esa es precisamente toda su propuesta de valor: la rigurosidad de una revisión cuidadosa por tres modelos, entregada como si proviniera de un único asistente. El costo, naturalmente, es que varios modelos se ejecutan donde uno podría haber bastado; y es exactamente por eso por lo que el enrutador de Fugu intenta responder directamente a las preguntas sencillas y reserva al comité completo únicamente para los problemas que lo justifican.

Fugu frente a Fugu Ultra

Aspecto	Fugu	Fugu Ultra
Diseñado para	Programación cotidiana, revisiones de código, chatbots	Problemas complejos y multifacéticos donde la precisión es crítica
Prioridad	Alto rendimiento y baja latencia	Calidad máxima de la respuesta
Conjunto de agentes	Reducido; permite excluir agentes específicos (cumplimiento normativo)	Conjunto más amplio de agentes especializados; sin opción de exclusión
Identificador del modelo	fugu	fugu-ultra-20260615

La posibilidad de excluir agentes es relevante para las empresas: con Fugu puedes excluir determinados modelos del conjunto (por ejemplo, para evitar que tus datos lleguen a un proveedor concreto), pero Fugu Ultra sacrifica ese control a cambio de una calidad máxima.

Los benchmarks — y la advertencia sincera

La comparativa publicada por Sakana sitúa a Fugu Ultra por encima de los modelos punteros en programación y razonamiento:

Benchmark	Fugu Ultra	Opus 4.8	Gemini 3.1 Pro	GPT-5.5
SWE-Bench Pro	73.7	69.2	54.2	58.6
TerminalBench 2.1	82.1	74.6	70.3	78.2
LiveCodeBench	93.2	87.8	88.5	85.3
El último examen de la humanidad	50.0	49.8	44.4	41.4

Sakana afirma que Fugu Ultra «obtiene la puntuación más alta en 10 de las 11 filas». Dos advertencias mantienen esta afirmación objetiva: (1) estos son los resultados publicados por el propio proveedor; aún no se han realizado pruebas independientes tras el lanzamiento; y (2) un orquestador superar a los modelos que coordina resulta menos sorprendente de lo que parece, porque puede seleccionar el mejor modelo para cada tarea específica. Las pruebas prácticas realmente relevantes son el costo, la latencia y la fiabilidad bajo carga, no solo una clasificación en un leaderboard.

¿Qué modelos coordina?

Sakana no divulga públicamente la composición del conjunto de modelos; el enrutamiento es propietario. Los informes periodísticos apuntan a GPT-5.5, Claude Opus 4.8 y Gemini 3.1 Pro entre los modelos orquestados. Curiosamente, Sakana señala que Claude Fable 5 y Mythos Preview están no en el grupo de modelos de Fugu, ya que no son accesibles públicamente mediante API. Si desea comprender los componentes que Fugu orquesta, nuestra Base de datos de modelos de IA guía técnica incluye especificaciones completas y precios para cada uno, y nuestra Claude Opus 4.8 frente a GPT-5.5 comparación detallada muestra cómo se diferencian.

Precios

Fugu se vende como suscripción, no como modelo puramente de pago por uso: 20 USD/mes (estándar), 100 USD/mes (pro) y 200 USD/mes (máx), cada una incluye tanto a Fugu como a Fugu Ultra, con distintos límites de uso. El consumo de tokens y su costo se informan por solicitud a través de la API compatible con OpenAI (puntos finales en console.sakana.ai). Un aspecto a considerar: al usar un orquestador, está pagando por la capa de coordinación además de lo que costarían los modelos subyacentes por sí solos; por tanto, su valor depende de que Fugu extraiga suficiente calidad adicional para justificar esta sobrecarga.

Uso de Fugu: una API compatible con OpenAI lista para usar

Parte de lo que hace fácil probar Fugu es que habla el dialecto de la API de OpenAI. Si su código ya llama a OpenAI, basta con cambiar la URL base y el nombre del modelo para estar prácticamente listo:

from openai import OpenAI

client = OpenAI(base_url="https://console.sakana.ai/v1", api_key="SU_CLAVE")
resp = client.chat.completions.create(
    model="fugu-ultra-20260615",
    messages=[{"role": "user", "content": "Explica y corrige este error..."}],
)
print(resp.choices[0].message.content)

El consumo de tokens y su costo se informan por solicitud, de modo que puede ver qué cantidad consumió una consulta determinada —aunque no pueda saber qué modelos subyacentes la ejecutaron. Para equipos que operan en entornos regulados, la capacidad del nivel estándar de Fugu de excluir agentes específicos del grupo es la característica que hace aceptable la orquestación: puede mantener por completo fuera del ciclo a un proveedor determinado. Fugu Ultra sacrifica ese control a cambio de una calidad máxima.

¿Quién está detrás de Sakana AI?

Sakana AI es un laboratorio con sede en Tokio, fundado en 2023 por Llion Jones —uno de los coautores del artículo original sobre los transformadores «Attention Is All You Need»— y David Ha, exmiembro de Google Brain. La empresa es conocida por sus enfoques inspirados en la naturaleza y evolutivos para la IA (sakana significa «pez», haciendo alusión a bancos y enjambres). Fugu encaja perfectamente en esa visión del mundo: inteligencia emergente de la coordinación de múltiples modelos, en lugar de provenir de una sola red cada vez más grande.

Fugu en contexto: el auge de la IA en Japón en 2026

Fugu no surgió de la nada. Japón ha estado construyendo durante 2026 su propia capacidad soberana en IA, en gran parte mediante los programas del Ministerio de Economía, Comercio e Industria (METI) y de la Agencia Nacional de Investigación y Desarrollo (NEDO), como el programa GENIAC . Los lanzamientos destacados de este año son:

Rakuten AI 3.0 (marzo de 2026) —presentado como el modelo de alto rendimiento más grande de Japón, un sistema de mezcla de expertos (MoE) con aproximadamente 700 000 millones de parámetros, optimizado para japonés y publicado abiertamente bajo licencia Apache 2.0.
SoftBank / SB Intuitions «Sarashina» —un LLM japonés desarrollado íntegramente en Japón, con 460 000 millones de parámetros, ahora disponible mediante una API comercial de Sarashina (además de una versión ligera llamada «Sarashina mini» para empresas), entrenado en un clúster de 4 000 GPU NVIDIA B200.
NTT «tsuzumi 2» —ajustado para lograr un equilibrio óptimo entre eficiencia y rendimiento, orientado a despliegues empresariales en hardware modesto.

En este contexto de grandes modelos fundamentales optimizados para japonés, la apuesta de Sakana destaca precisamente porque es lo opuesto: no otro modelo grande, sino una capa que permite que los mejores modelos del mundo trabajen juntos. Es una decisión profundamente característica de Sakana —y un recordatorio de que la estrategia de IA de Japón es mucho más amplia que cualquier laboratorio individual.

¿Un avance —o simplemente un «envoltorio»?

La percepción inicial de la comunidad tiende al escepticismo, y la pregunta dominante es directa: «¿Se trata simplemente de un enrutador que opera sobre los modelos de terceros?» Es un cuestionamiento válido. A continuación se presentan ambos puntos de vista:

El argumento escéptico: Fugu no posee ningún modelo puntero propio. Si se elimina la marca, no es más que una capa de pago que invoca APIs a las que usted podría acceder directamente. Si un proveedor modifica sus precios o condiciones de acceso, la economía de Fugu cambia de inmediato.
El argumento optimista: la coordinación podría ser, efectivamente, la frontera real. Si un «director aprendido» extrae de forma fiable más rendimiento de los modelos existentes que cualquiera de ellos por sí solo —verificando, reintentando y combinando resultados— eso representa un valor real, y evita por completo la carrera armamentística de entrenamiento que cuesta billones de dólares. the frontier. If a learned conductor reliably squeezes more out of existing models than any single one of them — verifying, retrying, and combining — that’s real value, and it sidesteps the trillion-dollar training arms race entirely.

La verdad probablemente se encuentre en algún punto intermedio, y dependerá de una validación independiente que aún no ha llegado.

Fugu frente a crear su propia solución (o un enrutador como OpenRouter)

La objeción obvia es: ¿no puedo simplemente hacer el enrutamiento entre modelos yo mismo, o usar un agregador como OpenRouter? Sí puede hacerlo —y ese es precisamente el umbral que Fugu debe superar. Una configuración manual o un enrutador basado en precio o latencia selecciona uno un modelo por llamada según reglas simples. La afirmación de Fugu es cualitativamente distinta: en una única tarea difícil, puede emplear varios modelos, asignarles roles específicos, hacer que uno verifique al otro y combinar los resultados —una coordinación que resulta genuinamente tediosa de implementar y ajustar manualmente. Si dicha coordinación aprendida supera a una canalización manual bien diseñada para una determinada su carga de trabajo es, una vez más, algo que debe probarse antes de comprometerse. Para necesidades sencillas, un único modelo potente —o un enrutador simple— sigue siendo la opción más económica y transparente.

Por qué es relevante

Fugu cristaliza una tendencia que hemos venido documentando: el valor marginal de un modelo puntero más grande va disminuyendo, y la verdadera ventaja radica en asignar el modelo adecuado a cada tarea. Nuestro Índice de precio-rendimiento de IA 2026 reveló que la prima por los modelos punteros compra una mejora últimos puntos discreta de capacidades, no un valor proporcional; y nuestro estudio comparativo de costos entre modelos abiertos y cerrados mostró cuán amplia se ha vuelto la brecha de precios. Fugu automatiza exactamente la decisión a la que apuntan esos estudios: ¿qué modelo debe responder? esto ¿esta pregunta? Si funciona, convierte la pregunta «¿qué IA debo usar?» en un único punto final.

Limitaciones a tener en cuenta

Dependencia: Fugu es tan bueno como los modelos disponibles en su conjunto —y como el acceso que usted tenga a ellos.
Acumulación de costes: usted paga la capa de coordinación de Sakana además del uso de los modelos subyacentes.
Opacidad: el enrutamiento propietario impide que, en ocasiones, audite qué modelo generó su respuesta (Fugu permite excluir agentes; Fugu Ultra no lo permite).
Disponibilidad: no está disponible en la UE/EEE hasta que se logre el cumplimiento del Reglamento General de Protección de Datos (RGPD).
Sin probar al lanzamiento: las evaluaciones independientes y la fiabilidad en entornos reales aún no alcanzan las afirmaciones realizadas.

Preguntas frecuentes

¿Es Sakana Fugu un modelo de lenguaje grande? En cierto modo: es un modelo de orquestación que usa emplea otros modelos de lenguaje grande (LLM) en lugar de generar cada respuesta a partir de una única red neuronal.

¿Reemplaza Fugu a GPT-5.5 o Claude? No: los invoca. Es una capa situada por encima de los modelos punteros, no un competidor directo de estos en el sentido habitual.

¿Puedo ejecutar Fugu localmente? No. Se trata de una API en la nube que depende del acceso a proveedores de modelos punteros.

¿Es de código abierto? El producto es propietario, pero la investigación subyacente (TRINITY y Conductor) se publicó en la conferencia ICLR 2026.

¿En qué se diferencia de un enrutador convencional? Un enrutador típico aplica reglas fijas. Fugu, en cambio, es un coordinador aprendido —optimizado mediante evolución y aprendizaje por refuerzo— que asigna funciones, verifica las salidas y sintetiza una respuesta final.

Conclusión final

Sakana Fugu es el lanzamiento de inteligencia artificial más interesante de junio de 2026: no porque sea el modelo más inteligente, sino porque replantea la pregunta. En lugar de «¿qué modelo es el mejor?», Fugu plantea «¿y si no tuviera que elegir?». Ya sea que demuestre ser un verdadero cambio de paradigma o simplemente un envoltorio ingenioso, captura una transformación real en el lugar donde reside el valor de la IA: menos en cualquier modelo individual y más en cómo se coordinan entre sí. Los resultados de las pruebas de referencia son impresionantes; ahora esperamos a que las evaluaciones independientes confirmen —o desmientan— la expectativa generada.

Fuentes: materiales de lanzamiento de Sakana AI y tabla comparativa de pruebas de referencia; artículos TRINITY y Conductor presentados en la conferencia ICLR 2026; cobertura periodística de MarkTechPost, Nikkei Asia y GIGAZINE. Las cifras corresponden a las publicadas en junio de 2026.