Sakana Fugu erklärt (2026): Japans KI-Orchestrierungsmodell im Vergleich zu GPT, Claude und Gemini

Japan hat gerade eine der konträrsten Wetten im KI-Bereich getätigt. Statt Milliarden in das Training eines Modells zu investieren, das GPT-5.5 und Claude Opus 4.8 übertrifft, hat Tokios Sakana AI ein Modell entwickelt, dessen einzige Aufgabe darin besteht, sie zu koordinieren. Lernen Sie Sakana Fugu kennen – am 22. Juni 2026 gestartet – ein Sprachmodell (LLM), das darauf trainiert ist, andere Sprachmodelle aufzurufen.

Wichtigste Erkenntnisse

Sakana Fugu ist ein sogenanntes „Orchestrierungsmodell“ – es leitet jede Aufgabe an ein koordiniertes Team aus Spitzenmodellen weiter (GPT-5.5, Claude Opus 4.8, Gemini 3.1 Pro …), statt alle Anfragen selbst zu beantworten.
Zwei Versionen: Fugu (schnell, für den Alltag) und Fugu Ultra (für die schwierigsten, mehrstufigen Aufgaben).
Fugu Ultra erzielt die beste Punktzahl bei 10 von 11 Benchmarks – und schlägt damit Opus 4.8 und GPT-5.5 bei SWE-Bench Pro (73,7), TerminalBench, LiveCodeBench und Humanity’s Last Exam (eigene Zahlen von Sakana).
OpenAI-kompatible API; Abonnements für 20 $/100 $/200 $ pro Monat. Noch nicht in der EU/EWR verfügbar.
Die große Frage: eine echte Durchbruchsinnovation im Bereich Koordination – oder doch „nur ein Router“? Wir analysieren beide Standpunkte.

Was ist Sakana Fugu?

Sakana Fugu ist kein traditionelles Grundlagenmodell. Es ist ein Dirigent — ein gelerntes System, dessen Spezialgebiet darin besteht zu entscheiden, welche anderen KI-Modelle Ihre Anfrage bearbeiten sollen und wie. Der Name ist ein Augenzwinkern: Fugu ist eine Delikatesse aus Kugelfisch, die nur von einem Experten sicher zubereitet werden kann. Die Implikation ist, dass das Orchestrieren leistungsstarker Modelle selbst eine Kunst darstellt.

Wenn Sie eine Anfrage an den einzigen, mit OpenAI kompatiblen Fugu-Endpunkt senden, entscheidet das Modell intern: Es antwortet direkt, wenn möglich (einfache Fragen, geringe Latenz), oder stellt bei schwierigen Aufgaben ein Team aus Expertenmodellen zusammen und koordiniert es . Modellauswahl, Delegation, Verifikation und endgültige Synthese erfolgen vollständig innerhalb des Systems und bleiben für Sie unsichtbar. Wie Sakana betont, ist die pro-Anfrage-Routing-Entscheidung proprietär – Sie erhalten eine einzige Antwort, nicht aber Einblick in das dahinterstehende Gremium.

Wie die Orchestrierung tatsächlich funktioniert

Im Inneren durchläuft Fugu eine Schleife, die ungefähr folgendermaßen aussieht: Routing → Delegation → Verifikation → Synthese. Es basiert auf zwei Arbeiten, die Sakana auf der ICLR 2026 veröffentlicht hat:

TRINITY — ein leichtgewichtiges, evolutionär optimiertes Koordinationsmodell, das über mehrere Interaktionsschritte hinweg arbeitet und dynamisch Rollen als Denker, Ausführender oder Verifizierer zuweist.
Conductor — ein System, das mittels Verstärkungslernen (Reinforcement Learning) trainiert wurde, um natürlichsprachliche Koordinationsstrategien sowie gezielte Prompts für einen vielfältigen Pool an Sprachmodellen (LLMs) zu entdecken.

Dieser Unterschied ist entscheidend: Fugu ist nicht kein einfacher If-Then-Router. Vielmehr handelt es sich um einen Koordinator, der – durch Evolution und Verstärkungslernen – optimiert wurde, um zu entscheiden, wer was übernimmt, Antworten durch eine Verifizierer-Rolle zu überprüfen und die einzelnen Teile zu einer kohärenten Antwort zusammenzufügen. Ob diese Optimierung außerhalb der eigenen Evaluierungen von Sakana Bestand hat, bleibt die offene Frage, auf die wir weiter unten zurückkommen.

Ein durchgerechnetes Beispiel: Eine schwierige Anfrage von Anfang bis Ende

Stellen Sie sich vor, Sie bitten Fugu Ultra, „diesen 800-Zeilen-Python-Service asynchron umzuschreiben und die Race Condition im Verbindungspool zu beheben.“ Hinter der einzelnen Antwort, die Sie erhalten, sieht die Choreografie etwa so aus:

Routing: Fugu erkennt, dass es sich hierbei um eine komplexe, mehrstufige Programmieraufgabe handelt – und nicht um eine Einzeiler-Antwort – und ruft daher stattdessen ein Team zusammen, statt direkt zu antworten.
Denker: Ein starkes Schlussfolgerungsmodell wird beauftragt, den Refaktorierungsplan zu erstellen und die Race Condition konzeptionell zu lokalisieren.
Ausführender: Ein spezialisiertes Codierungsmodell implementiert die eigentliche asynchrone Lösung gemäß diesem Plan.
Verifizierer: Ein drittes Modell prüft die Änderungen im Vergleich zur ursprünglichen Zielsetzung – bleibt das Verhalten erhalten? Wurde die Race Condition tatsächlich behoben? – und markiert eventuelle Probleme.
Synthese: Fugu berücksichtigt die Anmerkungen des Verifizierers, fordert bei Bedarf Korrekturen an und liefert eine saubere, einheitliche Antwort.

Sie sehen niemals die Übergaben zwischen den Modellen. Genau darin liegt der gesamte Mehrwert: Die Sorgfalt einer sorgfältigen dreimodelligen Überprüfung wird so präsentiert, als stamme sie von einem einzigen Assistenten. Der Preis dafür ist natürlich, dass mehrere Modelle zum Einsatz kommen, wo möglicherweise eines ausgereicht hätte – weshalb Fugus Router einfache Fragen selbst beantwortet und das volle Gremium nur für Aufgaben reserviert, die dies rechtfertigen.

Fugu vs. Fugu Ultra

Aspekt	Fugu	Fugu Ultra
Entwickelt für	Alltägliche Programmierung, Code-Reviews, Chatbots	Schwierige, mehrstufige Aufgaben, bei denen höchste Genauigkeit entscheidend ist
Priorität	Starke Leistung + niedrige Latenz	Maximale Antwortqualität
Agentenpool	Schlank; bestimmte Agenten können optional ausgeschlossen werden (Compliance)	Umfangreicherer Pool aus Expertenagenten; kein Ausschluss möglich
Modell-ID	Fugu	fugu-ultra-20260615

Der Ausschluss-Mechanismus ist für Unternehmen relevant: Bei Fugu können Sie bestimmte Modelle vom Pool ausschließen (beispielsweise um Daten vor einem bestimmten Anbieter zu schützen), während Fugu Ultra diese Kontrolle zugunsten maximaler Qualität aufgibt.

Die Benchmarks – und die ehrliche Einschränkung

Sakanas veröffentlichter Vergleich stellt Fugu Ultra bei Programmier- und Schlussfolgerungsaufgaben vor der aktuellen Spitzenklasse.

Benchmark	Fugu Ultra	Opus 4.8	Gemini 3.1 Pro	GPT-5.5
SWE-Bench Pro	73.7	69.2	54.2	58.6
TerminalBench 2.1	82.1	74.6	70.3	78.2
LiveCodeBench	93.2	87.8	88.5	85.3
Humanity’s Last Exam	50.0	49.8	44.4	41.4

Sakana erklärt, Fugu Ultra „erziele in 10 von 11 Kategorien die beste Punktzahl“. Zwei Einschränkungen relativieren dieses Ergebnis realistisch: (1) Es handelt sich um die eigenen Messwerte des Anbieters – unabhängige Tests haben den Launch noch nicht eingeholt; und (2) Ein Orchestrator schlägt die Modelle, die er orchestriert, weniger überraschend, als es zunächst klingt, da er für jede einzelne Teilaufgabe jeweils das bestgeeignetste Modell auswählen kann. Entscheidend sind jedoch die praktischen Tests hinsichtlich Kosten, Latenz und Zuverlässigkeit unter Last – nicht nur eine Rangliste.

Welche Modelle koordiniert es?

Sakana listet den Pool öffentlich nicht auf – das Routing ist proprietär. Presseberichte deuten darauf hin, dass GPT-5.5, Claude Opus 4.8 und Gemini 3.1 Pro gehören zu den orchestrierten Modellen. Interessanterweise weist Sakana darauf hin, dass Claude Fable 5 sowie Mythos Preview nicht nicht im Fugu-Pool enthalten sind, da sie über keine öffentliche API zugänglich sind. Falls Sie die Komponenten verstehen möchten, die Fugu orchestriert, finden Sie in unserem Datenbank für KI-Modelle detaillierten Überblick sämtliche technischen Spezifikationen und Preise für jedes Modell Claude Opus 4.8 im Vergleich zu GPT-5.5 Vergleichstabelle

Preise

Fugu wird als Abonnement und nicht als reines Pay-as-you-go-Modell angeboten: 20 USD/Monat (Standard), 100 USD/Monat (Pro) und 200 USD/Monat (Max), jeweils inklusive Zugriff auf Fugu und Fugu Ultra mit unterschiedlichen Nutzungsbeschränkungen. Die Token-Nutzung und die damit verbundenen Kosten werden pro Anfrage über die OpenAI-kompatible API (Endpunkte unter console.sakana.ai) zurückgemeldet. Ein Aspekt, der sorgfältig abgewogen werden sollte: Bei einem Orchestrierungsdienst zahlen Sie nicht nur für die zugrundeliegenden Modelle, sondern zusätzlich für die Koordinationsschicht oberhalb der Kosten, die die zugrundeliegenden Modelle allein verursachen würden – der Mehrwert hängt daher davon ab, ob Fugu durch verbesserte Ergebnisqualität den Overhead rechtfertigt.

Nutzung von Fugu: Eine nahtlos integrierbare OpenAI-kompatible API

Ein Grund dafür, dass Fugu einfach auszuprobieren ist, liegt darin, dass es die OpenAI-API-Syntax unterstützt. Falls Ihr Code bereits OpenAI aufruft, genügt es, die Basis-URL und den Modellnamen auszutauschen – und schon sind Sie praktisch fertig:

from openai import OpenAI

client = OpenAI(base_url="https://console.sakana.ai/v1", api_key="YOUR_KEY")
resp = client.chat.completions.create(
    model="fugu-ultra-20260615",
    messages=[{"role": "user", "content": "Erkläre diesen Fehler und behebe ihn..."}],
)
print(resp.choices[0].message.content)

Die Token-Nutzung und die Kosten werden pro Anfrage zurückgemeldet, sodass Sie genau nachvollziehen können, wie viele Token eine bestimmte Abfrage verbraucht hat – auch wenn nicht ersichtlich ist, welche zugrundeliegenden Modelle dafür eingesetzt wurden. Für Teams in regulierten Umgebungen ist die Möglichkeit der Standard-Fugu-Stufe, bestimmte Agenten gezielt vom Pool auszuschließen , das entscheidende Feature, das Orchestrierung akzeptabel macht: Sie können einen bestimmten Anbieter vollständig von der Verarbeitung ausschließen. Fugu Ultra verzichtet auf diese Kontrolle zugunsten maximaler Qualität.

Wer steht hinter Sakana AI?

Sakana AI ist ein in Tokio ansässiges Forschungslabor, das 2023 von Llion Jones – einem der Mitautoren des bahnbrechenden Transformer-Papiers „Attention Is All You Need“ – sowie von David Ha, ehemals bei Google Brain, gegründet wurde. Das Unternehmen ist bekannt für naturinspirierte und evolutionäre Ansätze in der KI („sakana “ bedeutet „Fisch“ und spielt auf Schwärme und Schulen an). Fugu passt nahtlos in diese Denkweise: Intelligenz entsteht hier nicht aus einem immer größer werdenden Netzwerk, sondern aus der Koordination vieler Modelle.

Fugu im Kontext: Japans KI-Boom im Jahr 2026

Fugu erschien nicht aus dem Nichts. Japan hat 2026 intensiv an einer souveränen KI-Kapazität gearbeitet, vor allem im Rahmen des GENIAC-Programms von METI und NEDO. GENIAC Die wichtigsten Veröffentlichungen dieses Jahres sind:

Rakuten AI 3.0 (März 2026) – beworben als Japans größtes Hochleistungsmodell, ein etwa 700-Milliarden-Parameter umfassendes Mixture-of-Experts-System, das speziell für die japanische Sprache optimiert und unter der Apache-2.0-Lizenz offen veröffentlicht wurde.
SoftBank / SB Intuitions „Sarashina“ – ein eigenentwickeltes japanisches LLM mit 460 Milliarden Parametern, das nun über eine kommerzielle Sarashina-API verfügbar ist (zusätzlich mit einer leichtgewichtigen Variante „Sarashina mini“ für Unternehmen) und auf einem 4.000-GPU-NVIDIA-B200-Cluster trainiert wurde.
NTT „tsuzumi 2“ – optimiert für ein starkes Verhältnis von Effizienz zu Leistung und gezielt für den Einsatz im Unternehmensumfeld auf bescheidenen Hardware-Ressourcen konzipiert.

Vor diesem Hintergrund großer, auf Japan zugeschnittener Grundlagenmodelle hebt sich Sakanas Wette gerade dadurch hervor, dass sie das Gegenteil darstellt: kein weiteres großes Modell, sondern eine Schicht, die es ermöglicht, die weltweit besten Modelle miteinander zu kombinieren. Dies ist ein typisch sakana-artiger Schritt – und eine Erinnerung daran, dass Japans KI-Strategie weit über ein einzelnes Labor hinausgeht.

Durchbruch – oder doch „nur ein Wrapper“?

Die frühe Stimmung in der Community neigt zur Skepsis, und die dominierende Frage ist unverblümt: „Ist dies lediglich ein Router für die Modelle anderer Anbieter?“ Das ist eine berechtigte Herausforderung. Hier sind beide Standpunkte:

Die skeptische Sichtweise: Fugu besitzt kein eigenes Spitzenmodell. Entfernt man das Branding, bleibt lediglich eine kostenpflichtige Zwischenschicht, die APIs aufruft, auf die Sie selbst zugreifen könnten. Ändert ein Anbieter seine Preise oder Zugangsbedingungen, verschiebt sich die Wirtschaftlichkeit von Fugu über Nacht.
Die optimistische Sichtweise: Koordination könnte tatsächlich die neue Spitze der Technologie sein. Wenn ein gelernter Dirigent bestehende Modelle systematisch besser ausnutzt – durch Verifizierung, erneutes Versuchen und Kombination ihrer Ergebnisse – als jedes einzelne Modell für sich allein, dann stellt das echten Mehrwert dar und umgeht den trillionenschweren Wettkampf um das Training neuer Modelle vollständig.

Die Wahrheit liegt wahrscheinlich dazwischen – und hängt von einer unabhängigen Validierung ab, die bislang noch aussteht.

Fugu im Vergleich zum Eigenbau (oder einem Router wie OpenRouter)

Der naheliegende Einwand lautet: Kann ich nicht selbst zwischen Modellen routen oder einen Aggregator wie OpenRouter nutzen? Ja, das können Sie – und das ist die Messlatte, die Fugu übertreffen muss. Eine manuelle Konfiguration oder ein Router, der sich an Preis und Latenz orientiert, wählt das eins Modell pro Aufruf nach einfachen Regeln aus. Fugus Anspruch ist qualitativ anders: Bei einer einzigen schwierigen Aufgabe kann es mehrere Modelle einsetzen, ihnen Rollen zuweisen, eines zur Verifizierung eines anderen heranziehen und die Ergebnisse kombinieren – eine Koordination, die manuell aufzubauen und feinzustellen tatsächlich mühsam ist. Ob diese gelernte Koordination eine gut gestaltete manuelle Pipeline für die jeweilige Ihr Arbeitslast

Warum das wichtig ist

übertrifft, ist – wie gesagt – der entscheidende Test, bevor Sie sich festlegen. Für einfache Anforderungen bleibt ein einzelnes leistungsstarkes Modell – oder ein simpler Router – die kostengünstigere und transparentere Wahl. die richtige Auswahl des Modells für jede einzelne AufgabeUnser KI-Preis-Leistungsindex 2026 stellte fest, dass der Premium-Preis für Spitzenmodelle zunehmend nur noch marginale Verbesserungen der Funktionalität bringt, nicht aber einen proportionalen Mehrwert – und unsere letzte Punkte Studie zu den Kosten offener versus geschlossener Modelle zeigte, wie weit sich die Preisunterschiede mittlerweile auseinanderentwickelt haben. Fugu automatisiert genau die Entscheidung, auf die diese Studien hinweisen: Welches Modell soll die jeweilige Anfrage beantworten? showed how wide the price gap has become. Fugu automates exactly the decision those studies point to: which model should answer dies Frage? Wenn es funktioniert, macht es die Entscheidung „Welches KI-Modell soll ich verwenden?“ zu einer Standardfunktion mit nur einem einzigen Endpunkt.

Zu berücksichtigende Einschränkungen

Abhängigkeit: Fugu ist nur so gut wie die Modelle in seinem Pool – und Ihr Zugriff auf diese.
Kostenstapelung: Sie zahlen für Sakanas Koordinations-Schicht zusätzlich zu den Kosten für die Nutzung der zugrundeliegenden Modelle.
Intransparenz: Die proprietäre Routing-Logik bedeutet, dass Sie nicht immer nachvollziehen können, welches Modell Ihre Antwort generiert hat (Fugu erlaubt ein Opt-out durch Agenten; Fugu Ultra hingegen nicht).
Verfügbarkeit: Wird derzeit in der EU/EWR nicht angeboten, da noch die DSGVO-Konformität geprüft wird.
Zum Start noch unerprobt: Unabhängige Benchmarks und Erfahrungen aus der Praxis hinken den behaupteten Leistungen noch hinterher.

Häufig gestellte Fragen

Ist Sakana Fugu ein großes Sprachmodell? Eingeschränkt ja – es handelt sich um ein Orchestrierungsmodell, das nutzt andere große Sprachmodelle (LLMs) nutzt, anstatt jede Antwort ausschließlich aus einem einzigen neuronalen Netzwerk zu generieren.

Ersetzt Fugu GPT-5.5 oder Claude? Nein – es ruft sie lediglich auf. Fugu ist eine Schicht oberhalb der leistungsstärksten Modelle, kein direkter Konkurrent im herkömmlichen Sinne.

Kann ich Fugu lokal ausführen? Nein. Es handelt sich um eine Cloud-basierte API, die auf den Zugriff auf Anbieter von Spitzenmodellen angewiesen ist.

Ist es Open Source? Das Produkt ist proprietär; die zugrundeliegende Forschung (TRINITY und Conductor) wurde jedoch auf der ICLR 2026 veröffentlicht.

Worin unterscheidet es sich von einem herkömmlichen Router? Ein typischer Router arbeitet mit festen Regeln. Fugu hingegen ist ein gelernter Koordinator – optimiert mittels evolutionärer Algorithmen und Verstärkungslernen –, der Rollen zuweist, Ausgaben überprüft und eine finale Antwort synthetisiert.

Das Fazit

Sakana Fugu ist die interessanteste KI-Einführung des Juni 2026 – nicht weil es das intelligenteste Modell ist, sondern weil es die Fragestellung neu formuliert: Statt „Welches Modell ist am besten?“ fragt Fugu: „Was wäre, wenn Sie sich gar nicht entscheiden müssten?“ Ob es sich als echter Paradigmenwechsel oder lediglich als geschickte Wrapper-Lösung erweisen wird – eines ist sicher: Es spiegelt eine reale Verschiebung wider, bei der der Wert von KI zunehmend weniger in einzelnen Modellen, sondern vielmehr in ihrer koordinierten Nutzung liegt. Die Benchmark-Ergebnisse wirken beeindruckend; nun warten wir ab, ob unabhängige Tests die Behauptungen bestätigen – oder entlarven.

Quellen: Einführungsunterlagen und Benchmark-Tabelle von Sakana AI; ICLR-2026-Papiere zu TRINITY und Conductor; Berichterstattung von MarkTechPost, Nikkei Asia und GIGAZINE. Zahlen gemäß Stand Juni 2026.