Explication de Sakana Fugu (2026) : le modèle japonais d’orchestration IA face à GPT, Claude et Gemini

Le Japon vient de faire l’un des paris les plus contraires en matière d’IA. Plutôt que de dépenser des milliards pour entraîner un modèle capable de surpasser GPT-5.5 et Claude Opus 4.8, Tokyo Sakana AI a conçu un modèle dont la mission exclusive est de coordonner ces modèles. Découvrez Sakana Fugu — lancé le 22 juin 2026 — un modèle de langage entraîné pour appeler d’autres modèles de langage.

Points clés à retenir

Sakana Fugu est un « modèle d’orchestration » — il achemine chaque tâche vers une équipe coordonnée de modèles de pointe (GPT-5.5, Claude Opus 4.8, Gemini 3.1 Pro…), plutôt que de répondre lui-même à tout.
Deux versions : Fugu (rapide, pour un usage quotidien) et Fugu Ultra (pour les problèmes les plus complexes et multi-étapes).
Fugu Ultra obtient le meilleur score sur 10 des 11 benchmarks — devançant Opus 4.8 et GPT-5.5 sur SWE-Bench Pro (73,7 %), TerminalBench, LiveCodeBench et Humanity’s Last Exam (chiffres internes de Sakana).
API compatible OpenAI ; abonnements à 20 $ / 100 $ / 200 $ par mois. Pas encore disponible dans l’UE/EEE.
La grande question : s’agit-il d’une véritable percée en matière d’orchestration, ou simplement d’un « routeur » ? Nous analysons les deux points de vue.

Qu’est-ce que Sakana Fugu ?

Sakana Fugu est pas un modèle fondamental classique. C’est un conducteur — un système appris dont la spécialité consiste à décider quels autres modèles d’IA doivent traiter votre demande, et comment. Le nom est un clin d’œil : fugu est un mets délicat à base de poisson-globe que seuls des experts peuvent préparer en toute sécurité. L’implication est que l’orchestration de modèles puissants constitue en soi un art.

Lorsque vous envoyez une requête au point de terminaison unique Fugu, compatible avec OpenAI, le modèle décide en interne : répondre directement lorsqu’il le peut (questions simples, faible latence), ou assembler et coordonner une équipe de modèles experts lorsque la tâche est complexe. La sélection des modèles, la délégation, la vérification et la synthèse finale s’effectuent entièrement au sein du système et restent invisibles pour vous. Comme le précise Sakana, le routage par requête est propriétaire — vous ne voyez qu’une seule réponse, pas le comité qui se cache derrière.

Comment fonctionne concrètement l’orchestration

Sous le capot, Fugu exécute une boucle qui ressemble approximativement à : routage → délégation → vérification → synthèse. Il repose sur deux articles publiés par Sakana à l’ICLR 2026 :

TRINITY — un coordinateur léger, optimisé évolutivement qui fonctionne sur plusieurs tours, attribuant dynamiquement les rôles de Penseur, Exécutant ou Vérificateur afin de déléguer les tâches de façon adaptative.
Conducteur — un système entraîné à l’aide de l’apprentissage par renforcement pour découvrir des stratégies de coordination en langage naturel ainsi que des invites ciblées destinées à un ensemble diversifié de grands modèles linguistiques (LLM).

Cette distinction est cruciale : Fugu n’est pas pas un simple routeur conditionnel « si-alors ». C’est un coordinateur qui a été optimisé — via l’évolution et l’apprentissage par renforcement — afin de déterminer qui fait quoi, de procéder à une double vérification des réponses grâce au rôle de vérificateur, et d’assembler les différentes pièces en une seule réponse cohérente. Savoir si cette optimisation résiste à des évaluations extérieures à celles menées par Sakana reste la question ouverte à laquelle nous revenons ci-dessous.

Exemple détaillé : une requête complexe, du début à la fin

Imaginez que vous demandiez à Fugu Ultra de « refactoriser ce service Python de 800 lignes en version asynchrone et corriger la condition de concurrence dans le pool de connexions. » Derrière la réponse unique que vous recevez, la chorégraphie ressemble approximativement à ceci :

Routage : Fugu identifie qu’il s’agit d’une tâche de programmation complexe et multi-étapes, plutôt que d’une simple ligne de code, et convoque donc une équipe au lieu de répondre directement.
Penseur : un modèle puissant en raisonnement est chargé de planifier le refactor et d’identifier conceptuellement la condition de concurrence.
Exécutant : un modèle spécialisé en programmation écrit effectivement l’implémentation asynchrone à partir de ce plan.
Vérificateur : un troisième modèle examine les différences entre la version modifiée et l’original — la comportement initial est-il préservé ? la condition de concurrence a-t-elle bien été corrigée ? — et signale tout problème détecté.
Synthèse : Fugu intègre les observations du vérificateur, demande une correction si nécessaire, puis renvoie une réponse unique et propre.

Vous ne voyez jamais les transferts de tâche. C’est précisément là tout l’intérêt : la rigueur d’un examen minutieux par trois modèles, livrée comme si elle provenait d’un seul assistant. Le coût, naturellement, est que plusieurs modèles sont exécutés là où un seul aurait pu suffire — c’est exactement pourquoi le routeur de Fugu répond lui-même aux questions simples et réserve le comité complet aux problèmes qui le justifient pleinement.

Fugu contre Fugu Ultra

Aspect	Fugu	Fugu Ultra
Conçu pour	La programmation quotidienne, les relectures de code, les chatbots	Les problèmes complexes et multi-étapes où la précision est critique
Priorité	Hautes performances + faible latence	Qualité maximale de la réponse
Pool d’agents	Allégé ; possibilité de désactiver certains agents (conformité)	Pool plus vaste d’agents experts ; aucune désactivation possible
Identifiant du modèle	fugu	fugu-ultra-20260615

La possibilité de désactivation est cruciale pour les entreprises : avec Fugu, vous pouvez exclure certains modèles du pool (par exemple, pour empêcher qu’un fournisseur spécifique n’ait accès à vos données), tandis que Fugu Ultra sacrifie ce contrôle au profit d’une qualité maximale.

Les benchmarks — et la mise en garde honnête

La comparaison publiée par Sakana place Fugu Ultra en tête sur les benchmarks de programmation et de raisonnement :

Benchmark	Fugu Ultra	Opus 4.8	Gemini 3.1 Pro	GPT-5.5
SWE-Bench Pro	73.7	69.2	54.2	58.6
TerminalBench 2.1	82.1	74.6	70.3	78.2
LiveCodeBench	93.2	87.8	88.5	85.3
L’examen final de l’humanité	50.0	49.8	44.4	41.4

Selon Sakana, Fugu Ultra « obtient le meilleur score sur 10 des 11 lignes ». Deux mises en garde tempèrent toutefois cette affirmation : (1) ces chiffres proviennent du fournisseur lui-même — des tests indépendants n’ont pas encore eu le temps de suivre le rythme du lancement ; et (2) le fait qu’un orchestrateur surpasse les modèles qu’il orchestre est moins surprenant qu’il n’y paraît, car il peut choisir le meilleur modèle pour chaque tâche individuelle. Les véritables tests pertinents dans la pratique portent sur le coût, la latence et la fiabilité sous charge — pas uniquement sur un classement.

Quels modèles orchestre-t-il ?

Sakana ne publie pas publiquement la liste du pool — le routage est propriétaire. Les articles de presse font état de GPT-5.5, Claude Opus 4.8 et Gemini 3.1 Pro parmi les modèles orchestrés. Curieusement, Sakana note que Claude Fable 5 et Mythos Preview ne figurent pas pas dans le pool de Fugu, car ils ne sont pas accessibles publiquement via une API. Si vous souhaitez comprendre les composants mis en œuvre par Fugu, notre Base de données des modèles d’IA fiche technique détaillée Claude Opus 4.8 contre GPT-5.5 comparative

Tarification

Fugu est commercialisé sous forme d’abonnement, et non selon un modèle strictement à l’usage : 20 $/mois (version Standard), 100 $/mois (version Pro) et 200 $/mois (version Max), chacune couvrant à la fois Fugu et Fugu Ultra, avec des limites d’utilisation différentes. La consommation de jetons et le coût associé sont indiqués pour chaque requête via l’API compatible OpenAI (points de terminaison situés à l’adresse console.sakana.ai). Un point à prendre en compte : avec un orchestrateur, vous payez non seulement les modèles sous-jacents, mais aussi la couche de coordination en sus de ce que coûteraient ces modèles sous-jacents pris isolément — la valeur ajoutée dépend donc de la capacité de Fugu à extraire suffisamment de qualité supplémentaire pour justifier ce surcoût.

Utiliser Fugu : une API compatible OpenAI, prête à l’emploi

L’un des atouts de Fugu est sa facilité de prise en main, grâce à son compatibilité avec le dialecte de l’API OpenAI. Si votre code appelle déjà OpenAI, il vous suffit de remplacer l’URL de base et le nom du modèle pour être opérationnel en quelques secondes :

from openai import OpenAI

client = OpenAI(base_url="https://console.sakana.ai/v1", api_key="VOTRE_CLE")
resp = client.chat.completions.create(
    model="fugu-ultra-20260615",
    messages=[{"role": "user", "content": "Expliquez et corrigez ce bogue..."}],
)
print(resp.choices[0].message.content)

La consommation de jetons et le coût associé sont renvoyés pour chaque requête, ce qui permet de connaître précisément la consommation d’une requête donnée — même si vous ne pouvez pas voir quels modèles sous-jacents ont été mobilisés. Pour les équipes opérant dans des environnements réglementés, la fonctionnalité offerte par le niveau standard de Fugu, qui permet de exclure spécifiquement certains agents du pool , rend l’orchestration acceptable : vous pouvez ainsi empêcher totalement un fournisseur donné d’intervenir. Fugu Ultra sacrifie ce contrôle au profit d’une qualité maximale.

Qui se cache derrière Sakana AI ?

Sakana AI est un laboratoire basé à Tokyo, fondé en 2023 par Llion Jones — l’un des coauteurs de l’article fondateur « Attention Is All You Need » sur les réseaux transformeurs — et par David Ha, ancien membre de Google Brain. L’entreprise est connue pour ses approches inspirées de la nature et de l’évolution en intelligence artificielle (sakana signifie « poisson », évoquant les bancs et les essaims). Fugu s’inscrit parfaitement dans cette vision : une intelligence émergente de la coordination de nombreux modèles, plutôt que d’un seul réseau toujours plus volumineux.

Fugu dans son contexte : l’essor de l’IA au Japon en 2026

Fugu n’est pas apparu dans le vide. Le Japon a consacré l’année 2026 à renforcer sa souveraineté en IA, principalement via les programmes menés par le METI et le NEDO, notamment le programme GENIAC . Les annonces phares de cette année sont les suivantes :

Rakuten AI 3.0 (mars 2026) — présenté comme le plus grand modèle haute performance du Japon, un système hybride MoE (mixture-of-experts) d’environ 700 milliards de paramètres, optimisé pour la langue japonaise et publié ouvertement sous licence Apache 2.0.
SoftBank / SB Intuitions « Sarashina » — un LLM japonais développé en interne, comptant 460 milliards de paramètres, désormais accessible via une API commerciale « Sarashina » (ainsi qu’une version allégée, « Sarashina mini », destinée aux entreprises), entraîné sur un cluster NVIDIA B200 de 4 000 GPU.
NTT « tsuzumi 2 » — conçu pour offrir un excellent compromis entre efficacité et performances, ciblant le déploiement en entreprise sur du matériel modeste.

Dans ce contexte marqué par l’émergence de grands modèles fondamentaux optimisés pour le japonais, le pari de Sakana se distingue précisément parce qu’il va dans la direction opposée : non pas un nouveau modèle massif, mais une couche permettant de faire travailler ensemble les meilleurs modèles mondiaux . Il s’agit là d’une démarche typiquement sakana — et d’un rappel que la stratégie japonaise en matière d’IA est bien plus vaste que tout laboratoire individuel.

Une percée — ou simplement un « simple enveloppe » ?

Les premières réactions de la communauté penchent vers le scepticisme, et la question dominante est directe : « Est-ce simplement un routeur redirigeant vers les modèles d’autrui ? » C’est une objection légitime. Voici les deux points de vue :

L’argument sceptique : Fugu ne possède aucun modèle de pointe en propre. Enlevez la marque, et Fugu n’est qu’une couche payante appelant des API que vous pourriez invoquer vous-même. Si un fournisseur modifie ses tarifs ou ses conditions d’accès, l’économie de Fugu peut changer du jour au lendemain.
L’argument optimiste : l’orchestration pourrait bien constituer la frontière actuelle. Si un « chef d’orchestre » apprenant parvient systématiquement à tirer davantage de performances des modèles existants qu’aucun d’eux ne le ferait isolément — en vérifiant, en relançant et en combinant leurs résultats — cela représente une véritable valeur ajoutée, évitant totalement la course aux armements d’entraînement à mille milliards de dollars.

La vérité se situe probablement quelque part entre les deux, et dépend d’une validation indépendante qui n’est pas encore disponible.

Fugu contre une solution maison (ou un routeur comme OpenRouter)

L’objection évidente est la suivante : ne puis-je pas simplement router moi-même entre les modèles, ou utiliser un agrégateur tel qu’OpenRouter ? Vous le pouvez — et c’est précisément ce seuil que Fugu doit dépasser. Une configuration manuelle ou un routeur basé sur le prix ou la latence sélectionne un un modèle par appel selon des règles simples. La promesse de Fugu est qualitativement différente : sur une tâche difficile unique, il peut mobiliser plusieurs modèles, leur attribuer des rôles spécifiques, en faire vérifier les résultats par un autre, puis combiner les sorties — une coordination qui serait effectivement fastidieuse à concevoir et à affiner manuellement. Savoir si cette coordination apprise surpasse un pipeline manuel bien conçu pour une votre charge de travail donnée

Pourquoi cela compte

Fugu cristallise une tendance que nous documentons depuis plusieurs mois : la valeur marginale d’un modèle de pointe toujours plus volumineux diminue, et le levier réel réside désormais dans le choix du modèle adapté à chaque tâche. Notre Indice 2026 de rapport prix-performance en IA a révélé que la prime accordée aux modèles de pointe achète surtout une derniers points quantité accrue de capacités étude comparative coûts des modèles ouverts vs fermés a montré à quel point l’écart de prix s’est creusé. Fugu automatise précisément la décision mise en lumière par ces études : quel modèle doit répondre ? cela question ? Si cela fonctionne, cela banalise la question « Quel modèle d’IA dois-je utiliser ? » en un seul point de terminaison.

Limites à garder à l’esprit

Dépendance : Fugu n’est aussi bon que les modèles présents dans son pool — et que votre accès à ceux-ci.
Cumul des coûts : vous payez la couche de coordination de Sakana en sus de l’utilisation des modèles sous-jacents.
Opacité : le routage propriétaire signifie que vous ne pouvez pas toujours auditer quel modèle a produit votre réponse (Fugu autorise la désactivation volontaire des agents ; Fugu Ultra, non).
Disponibilité : non disponible dans l’UE/EEE en attendant la conformité au RGPD.
Non éprouvé à son lancement : les benchmarks indépendants et la fiabilité en conditions réelles sont encore en train de rattraper les revendications formulées.

Questions fréquemment posées

Sakana Fugu est-il un grand modèle linguistique ? En quelque sorte — c’est un modèle d’orchestration qui utilise exploite d’autres LLM plutôt que de générer chaque réponse à partir d’un seul réseau.

Fugu remplace-t-il GPT-5.5 ou Claude ? Non — il les appelle. C’est une couche située au-dessus des modèles de pointe, et non un concurrent direct de ces derniers au sens habituel du terme.

Puis-je exécuter Fugu localement ? Non. Il s’agit d’une API cloud qui dépend de l’accès aux fournisseurs de modèles de pointe.

Est-ce open source ? Le produit est propriétaire, mais la recherche sous-jacente (TRINITY et Conductor) a été publiée lors de la conférence ICLR 2026.

En quoi diffère-t-il d’un routeur classique ? Un routeur classique utilise des règles fixes. Fugu, lui, est un coordinateur appris — optimisé à l’aide d’algorithmes évolutionnaires et d’apprentissage par renforcement — qui attribue des rôles, vérifie les sorties et synthétise une réponse finale.

En résumé

Sakana Fugu constitue le lancement d’IA le plus intéressant de juin 2026 — non pas parce qu’il s’agit du modèle le plus performant, mais parce qu’il reformule la question posée. Plutôt que de se demander « Quel modèle est le meilleur ? », Fugu interroge : « Et si vous n’aviez pas à choisir ? » Que ce lancement s’avère être un véritable changement de paradigme ou simplement un habillage ingénieux, il illustre bien une évolution réelle de la localisation de la valeur ajoutée en IA : moins dans un modèle unique, davantage dans la façon dont on orchestre plusieurs modèles. Les résultats des benchmarks sont impressionnants ; désormais, nous attendons les tests indépendants pour confirmer — ou infirmer — cet engouement.

Sources : documents de lancement de Sakana AI et tableau comparatif des performances ; articles TRINITY et Conductor présentés à la conférence ICLR 2026 ; reportages de MarkTechPost, Nikkei Asia et GIGAZINE. Données publiées en juin 2026.