Spiegazione di Sakana Fugu (2026): il modello giapponese di orchestrazione AI rispetto a GPT, Claude e Gemini

Il Giappone ha appena compiuto una delle scommesse più controcorrenti nel campo dell'IA. Invece di spendere miliardi per addestrare un modello in grado di battere GPT-5.5 e Claude Opus 4.8, Tokyo Sakana AI ha realizzato un modello il cui unico compito è coordinare gli altri. Presentiamo Sakana Fugu — lanciato il 22 giugno 2026 — un modello linguistico di grandi dimensioni addestrato per richiamare altri modelli linguistici di grandi dimensioni.

Punti chiave

Sakana Fugu è un «modello di orchestrazione» — instrada ogni compito a un team coordinato di modelli all'avanguardia (GPT-5.5, Claude Opus 4.8, Gemini 3.1 Pro…) anziché rispondere autonomamente a tutto.
Due versioni: Fugu (veloce, per l'uso quotidiano) e Fugu Ultra (per i problemi più complessi e multi-step).
Fugu Ultra ottiene il punteggio più alto su 10 dei 11 benchmark — superando Opus 4.8 e GPT-5.5 su SWE-Bench Pro (73,7), TerminalBench, LiveCodeBench e Humanity's Last Exam (dati forniti direttamente da Sakana).
API compatibile con OpenAI; abbonamenti a 20 $ / 100 $ / 200 $ al mese. Non ancora disponibile nell'UE/SEE.
La domanda cruciale: si tratta di una vera innovazione nella coordinazione o semplicemente di «un router»? Analizziamo entrambe le posizioni.

Che cos'è Sakana Fugu?

Sakana Fugu non è un modello fondativo tradizionale. È un conduttore — un sistema appreso la cui specialità consiste nel decidere quali altri modelli AI debbano gestire la tua richiesta e in che modo. Il nome è un gioco di parole: fugu è una prelibatezza a base di pesce palla che solo un esperto può preparare in sicurezza. L’implicazione è che orchestrare modelli potenti è di per sé un’arte.

Quando invii una query all’unico endpoint Fugu compatibile con OpenAI, il modello decide internamente se rispondere direttamente quando possibile (domande semplici, bassa latenza) oppure assemblare e coordinare un team di modelli esperti quando il compito è complesso. La selezione dei modelli, la delega, la verifica e la sintesi finale avvengono tutte all’interno del sistema e rimangono invisibili all’utente. Come spiega Sakana, il routing per singola query è proprietario: vedi una sola risposta, non il comitato che la genera.

Come funziona concretamente l'orchestrazione

Sotto il cofano, Fugu esegue un ciclo simile al seguente: instradamento → delega → verifica → sintesi. È basato su due articoli pubblicati da Sakana alla conferenza ICLR 2026:

TRINITY — un coordinatore leggero, ottimizzato evolutivamente che opera su più turni, assegnando dinamicamente i ruoli di Thinker, Worker o Verifier per delegare il lavoro in modo adattivo.
Conductor — un sistema addestrato tramite apprendimento per rinforzo per scoprire strategie di coordinamento in linguaggio naturale e prompt mirati per un ampio insieme di LLM.

Questa distinzione è fondamentale: Fugu non è non un semplice router condizionale. È un coordinatore ottimizzato — attraverso processi evolutivi e apprendimento per rinforzo — per decidere chi fa cosa, per verificare le risposte mediante un ruolo specifico di verifica e per integrare i vari risultati in un’unica risposta. Se tale ottimizzazione mantenga le sue prestazioni al di fuori delle valutazioni condotte direttamente da Sakana è la domanda aperta a cui torneremo più avanti.

Esempio pratico: una query complessa, dall'inizio alla fine

Immagina di chiedere a Fugu Ultra di «rifattorizzare questo servizio Python da 800 righe in versione asincrona e correggere la condizione di gara nel connection pool». Dietro l’unica risposta che ricevi, la coreografia appare più o meno così:

Instradamento: Fugu riconosce che si tratta di un compito di programmazione complesso e articolato, non di una semplice domanda monoriga, quindi convoca un team anziché rispondere direttamente.
Thinker: un modello avanzato per il ragionamento viene incaricato di pianificare il rifattorizzatore e individuare concettualmente la condizione di gara.
Worker: un modello specializzato nella scrittura di codice implementa effettivamente la versione asincrona sulla base di tale piano.
Verifier: un terzo modello verifica le modifiche rispetto all’intento originale: il comportamento è stato preservato? La condizione di gara è stata effettivamente risolta? — segnalando eventuali anomalie.
Sintesi: Fugu integra le osservazioni del Verifier, richiede una correzione se necessario e restituisce una risposta unica e pulita.

Non vedi mai i passaggi intermedi. Questo è l’intero punto di forza: la rigorosità di una revisione accurata condotta da tre modelli distinti, fornita come se provenisse da un unico assistente. Il costo, naturalmente, è che vengono impiegati diversi modelli laddove uno solo sarebbe bastato — ed è proprio per questo che il router di Fugu cerca di rispondere autonomamente alle domande semplici, riservando il comitato completo ai problemi che lo richiedono effettivamente.

Fugu vs Fugu Ultra

Aspetto	Fugu	Fugu Ultra
Progettato per	Programmazione quotidiana, revisione del codice, chatbot	Problemi complessi e articolati dove l’accuratezza è critica
Priorità	Prestazioni elevate + bassa latenza	Massima qualità della risposta
Pool di agenti	Ristretto; possibilità di escludere agenti specifici (conformità)	Pool più ampio di agenti esperti; nessuna possibilità di esclusione
ID modello	fugu	fugu-ultra-20260615

L’opzione di esclusione è importante per le aziende: con Fugu è possibile escludere determinati modelli dal pool (ad esempio per impedire che i dati vengano elaborati da un determinato fornitore), mentre Fugu Ultra sacrifica questo controllo in cambio della massima qualità.

I benchmark — e la doverosa precisazione

Il confronto pubblicato da Sakana colloca Fugu Ultra al vertice nelle prove di programmazione e ragionamento:

Benchmark	Fugu Ultra	Opus 4.8	Gemini 3.1 Pro	GPT-5.5
SWE-Bench Pro	73.7	69.2	54.2	58.6
TerminalBench 2.1	82.1	74.6	70.3	78.2
LiveCodeBench	93.2	87.8	88.5	85.3
Humanity’s Last Exam	50.0	49.8	44.4	41.4

Secondo Sakana, Fugu Ultra «ottiene il punteggio più alto in 10 delle 11 voci». Due precisazioni mantengono questa affermazione onesta: (1) si tratta dei dati forniti direttamente dal produttore — test indipendenti non hanno ancora raggiunto la fase successiva al lancio; e (2) un orchestratore che supera i modelli che coordina è meno sorprendente di quanto possa sembrare, poiché può scegliere il modello migliore per ciascun singolo compito. I test reali che contano davvero sono costo, latenza e affidabilità sotto carico — non soltanto un punteggio su una classifica.

Quali modelli coordina?

Sakana non rende pubblico l’elenco completo del pool — il routing è proprietario. Le notizie stampa indicano GPT-5.5, Claude Opus 4.8 e Gemini 3.1 Pro tra i modelli orchestrati. Curiosamente, Sakana osserva che Claude Fable 5 e Mythos Preview non sono inclusi non nel pool di Fugu, poiché non sono accessibili pubblicamente tramite API. Se desideri comprendere i componenti su cui Fugu opera, la nostra Database di modelli di intelligenza artificiale scheda tecnica completa Claude Opus 4.8 vs GPT-5.5 confronta le caratteristiche e i prezzi di ciascuno.

Prezzi

Fugu è offerto in abbonamento, non in regime puramente "pay-as-you-go": 20 USD/mese (Standard), 100 USD/mese (Pro) e 200 USD/mese (Max), con ciascun piano che include sia Fugu sia Fugu Ultra, ma con limiti di utilizzo diversi. Il consumo di token e il relativo costo vengono riportati per ogni richiesta attraverso l'API compatibile con OpenAI (endpoint su console.sakana.ai). Un aspetto da considerare: con un orchestratore paghi non solo per i modelli sottostanti, ma anche per il livello di coordinamento sovrapposto a quanto costerebbero i modelli stessi — quindi il valore dipende dalla capacità di Fugu di estrarre una qualità aggiuntiva sufficiente a giustificare questo overhead.

Utilizzo di Fugu: un'API compatibile con OpenAI pronta all'uso

Una delle ragioni per cui Fugu è facile da provare è che utilizza il linguaggio dell'API OpenAI. Se il tuo codice chiama già OpenAI, ti basta sostituire l'URL base e il nome del modello per essere praticamente pronto:

from openai import OpenAI

client = OpenAI(base_url="https://console.sakana.ai/v1", api_key="YOUR_KEY")
resp = client.chat.completions.create(
    model="fugu-ultra-20260615",
    messages=[{"role": "user", "content": "Spiega e risolvi questo bug..."}],
)
print(resp.choices[0].message.content)

Il consumo di token e il costo associato vengono restituiti per ogni richiesta, consentendoti di vedere esattamente quanto ha consumato una determinata query — anche se non puoi sapere quali modelli sottostanti sono stati effettivamente impiegati. Per i team operanti in ambienti regolamentati, la possibilità della versione standard di Fugu di escludere specifici agenti dal pool è la funzionalità che rende l’orchestrazione accettabile: puoi tenere completamente fuori dal processo un determinato fornitore. Fugu Ultra rinuncia a questo controllo in cambio della massima qualità.

Chi sta dietro Sakana AI?

Sakana AI è un laboratorio con sede a Tokyo, fondato nel 2023 da Llion Jones — uno dei coautori dell’originale articolo sui Transformer "Attention Is All You Need" — e da David Ha, ex membro di Google Brain. L’azienda è nota per i suoi approcci all’intelligenza artificiale ispirati alla natura e all’evoluzione (sakana significa "pesce", richiamando concetti di branchi e sciami). Fugu si inserisce perfettamente in questa visione: intelligenza che emerge dalla coordinazione di molti modelli, anziché da un’unica rete sempre più grande.

Fugu nel contesto: l'impulso dell'IA giapponese nel 2026

Fugu non è apparso nel vuoto. Nel 2026 il Giappone ha intensificato lo sviluppo di una propria capacità sovrana in ambito IA, gran parte della quale finanziata dai programmi del Ministero dell’Economia, del Commercio e dell’Industria (METI) e dell’Agenzia nazionale per lo sviluppo della ricerca industriale (NEDO), tra cui il programma GENIAC . I principali annunci di quest’anno sono stati:

Rakuten AI 3.0 (marzo 2026) — presentato come il modello ad alte prestazioni più grande del Giappone, un sistema misto di esperti (MoE) con circa 700 miliardi di parametri, ottimizzato per la lingua giapponese e rilasciato apertamente sotto licenza Apache 2.0.
SoftBank / SB Intuitions "Sarashina" — un LLM giapponese interamente sviluppato internamente, con 460 miliardi di parametri, ora reso disponibile tramite un’API commerciale Sarashina (oltre a una versione leggera, "Sarashina mini", rivolta alle imprese), addestrato su un cluster NVIDIA B200 composto da 4.000 GPU.
NTT "tsuzumi 2" — ottimizzato per ottenere un eccellente equilibrio tra efficienza e prestazioni, pensato per il deployment aziendale su hardware di fascia media.

In questo contesto di grandi modelli fondativi ottimizzati per il giapponese, la scelta di Sakana spicca proprio perché rappresenta l’esatto opposto: non un altro modello di grandi dimensioni, ma uno strato in grado di far collaborare i migliori modelli al mondo . È una mossa tipicamente Sakana — e un promemoria del fatto che la strategia giapponese sull’IA è molto più ampia di qualsiasi singolo laboratorio.

Un'innovazione — o semplicemente «un wrapper»?

Le prime reazioni della comunità sono prevalentemente scettiche, e la domanda dominante è diretta: "Si tratta semplicemente di un router attorno ai modelli altrui?" È una critica legittima. Ecco entrambe le posizioni:

La posizione scettica: Fugu non possiede alcun modello di frontiera di proprietà. Rimuovendo il branding, non è altro che uno strato a pagamento che invoca API che potresti chiamare autonomamente. Se un fornitore modifica prezzi o condizioni di accesso, l’economia di Fugu cambia da un giorno all’altro.
La posizione ottimistica: la coordinazione potrebbe essere davvero il nuovo confine della ricerca. Se un "direttore d’orchestra" appreso riesce sistematicamente a estrarre maggiore valore dai modelli esistenti rispetto a ciascuno di essi preso singolarmente — verificando, ritentando e combinando i risultati — allora si tratta di un valore reale, che evita del tutto la corsa agli armamenti del training da migliaia di miliardi di dollari. the frontier. If a learned conductor reliably squeezes more out of existing models than any single one of them — verifying, retrying, and combining — that’s real value, and it sidesteps the trillion-dollar training arms race entirely.

La verità probabilmente sta nel mezzo, e dipende da una validazione indipendente che ancora non è arrivata.

Fugu rispetto alla creazione autonoma (o a un router come OpenRouter)

L’obiezione più ovvia è: non posso già fare il routing tra modelli da solo, oppure usare un aggregatore come OpenRouter? Sì, puoi — ed è proprio questo lo standard che Fugu deve superare. Una configurazione manuale o un router basato su prezzo/latenza sceglie il uno modello per ogni chiamata seguendo regole semplici. La pretesa di Fugu è qualitativamente diversa: su un singolo compito complesso può impiegare più modelli, assegnare loro ruoli specifici, farne verificare i risultati da uno all’altro e combinare i risultati — una coordinazione che sarebbe davvero noiosa da implementare e ottimizzare manualmente. Se tale coordinazione appresa superi effettivamente una pipeline manuale ben progettata per un determinato tuo carico di lavoro è, ancora una volta, ciò che va testato prima di impegnarsi. Per esigenze semplici, un singolo modello performante — o un router basilare — rimane la scelta più economica e trasparente.

Perché è importante

Fugu cristallizza una tendenza che stiamo documentando da tempo: il valore marginale di un modello di frontiera sempre più grande sta diminuendo, mentre il vero vantaggio competitivo sta nel abbinare il modello giusto a ciascun compito. Il nostro Indice 2026 di rapporto costo-prestazioni per l’IA ha rivelato che il premio per i modelli di frontiera acquista soprattutto una maggiore ultimi punti ampiezza di capacità, non un valore proporzionale — e il nostro studio comparativo sui costi tra modelli open e closed source ha evidenziato quanto si sia allargato il divario di prezzo. Fugu automatizza esattamente la decisione indicata da questi studi: quale modello deve rispondere domanda? Se funziona, trasforma la scelta «Quale IA devo usare?» in un singolo endpoint, rendendola una commodity.

Limitazioni da tenere presenti

Dipendenza: Fugu è tanto buono quanto i modelli presenti nel suo pool — e quanto è agevole il vostro accesso a essi.
Cumulo dei costi: pagate il livello di coordinamento di Sakana oltre all’utilizzo dei modelli sottostanti.
Opacità: il routing proprietario implica che non è sempre possibile verificare quale modello abbia generato la risposta (Fugu consente agli agenti di rinunciare volontariamente; Fugu Ultra non lo consente).
Disponibilità: non disponibile nell’UE/SEE in attesa della conformità al GDPR.
Non ancora dimostrato al lancio: benchmark indipendenti e affidabilità nella pratica reale devono ancora raggiungere le affermazioni avanzate.

Domande frequenti

Sakana Fugu è un modello linguistico di grandi dimensioni? In un certo senso — è un modello di orchestrazione che utilizza utilizza altri LLM invece di generare ogni risposta partendo da una singola rete.

Fugu sostituisce GPT-5.5 o Claude? No — li richiama. È un livello sovrastante i modelli di frontiera, non un concorrente diretto di questi ultimi nel senso tradizionale.

Posso eseguire Fugu localmente? No. Si tratta di un’API cloud che dipende dall’accesso ai fornitori di modelli di frontiera.

È open source? Il prodotto è proprietario, ma la ricerca alla sua base (TRINITY e Conductor) è stata pubblicata alla conferenza ICLR 2026.

In che cosa differisce da un normale router? Un router tipico utilizza regole fisse. Fugu è invece un coordinatore appreso — ottimizzato mediante evoluzione e apprendimento per rinforzo — che assegna ruoli, verifica gli output e sintetizza una risposta finale.

Il punto essenziale

Sakana Fugu rappresenta il lancio di intelligenza artificiale più interessante del giugno 2026 — non perché sia il modello più intelligente, ma perché riformula la domanda. Invece di chiedersi «Quale modello è il migliore?», Fugu pone la domanda «E se non fosse necessario scegliere?». Che si riveli un vero e proprio cambio di paradigma oppure un’interfaccia ingegnosa, Fugu coglie una trasformazione reale nel luogo in cui risiede il valore dell’IA: sempre meno in un singolo modello, sempre più nel modo in cui i modelli vengono coordinati. I benchmark appaiono impressionanti; ora attendiamo i test indipendenti per confermare — o smentire — l’entusiasmo suscitato.

Fonti: materiali ufficiali del lancio di Sakana AI e tabella dei benchmark; articoli TRINITY e Conductor presentati alla conferenza ICLR 2026; reportage di MarkTechPost, Nikkei Asia e GIGAZINE. Dati pubblicati nel giugno 2026.